కొత్త గూగుల్ AI వ్యూహం ఓపెనాయ్ యొక్క ఆధిపత్యాన్ని దెబ్బతీస్తుంది
చాలా ఉన్నాయి Ai ఈ రోజుల్లో పరిశోధనా పత్రాలు, నిలబడటం కష్టం. కానీ ఒక కాగితం ఇటీవలి రోజుల్లో టెక్ పరిశ్రమలో చాలా చర్చలు జరిపింది.
“గత రెండు సంవత్సరాల్లో నేను AI లో చదివిన అత్యంత ఉత్తేజకరమైన విషయం ఇది” అని స్టార్టప్ వ్యవస్థాపకుడు సుహైల్ దోషి ఈ వారాంతంలో X లో రాశారు. జాక్ క్లార్క్ఆంత్రోపిక్ యొక్క కోఫౌండర్, అతని సోమవారం ఎడిషన్లో పేపర్ను కలిగి ఉంది మీకు ఉన్న దిగుమతి వార్తాలేఖ, దీనిని వేలాది మంది పరిశ్రమ పరిశోధకులు నిశితంగా చదివారు.
రాసినది గూగుల్ పరిశోధకుడు డేవిడ్ సిల్వర్ మరియు కెనడియన్ కంప్యూటర్ శాస్త్రవేత్త రిచ్ సుట్టన్, ది కాగితం ధైర్యంగా కొత్త AI ERA ను ప్రకటించింది.
రచయితలు మునుపటి రెండు ఆధునిక AI యుగాలను గుర్తించారు. మొదటిది సారాంశం ఆల్ఫాగో. చాట్గ్ప్ట్.
సిల్వర్ మరియు సుట్టన్ మేము ఇప్పుడు “ది ఎరా ఆఫ్ ఎక్స్పీరియన్స్” అనే కొత్త కాలంలోకి ప్రవేశిస్తున్నాము.
డేవిడ్ సిల్వర్ మరియు రిచర్డ్ సుట్టన్ రచించిన “వెల్కమ్ టు ది ఎరా ఆఫ్ ఎక్స్పీరియన్స్” పరిశోధనా పత్రం నుండి ఒక గ్రాఫ్
నా కోసం, ఇది AI యొక్క అత్యంత నిరంతర సమస్యలలో ఒకదాన్ని పరిష్కరించడానికి గూగుల్ చేసిన కొత్త ప్రయత్నాన్ని సూచిస్తుంది – కొరత శిక్షణ డేటా – సాంకేతిక విధానానికి మించి కదులుతున్నప్పుడు ఓపెనాయ్ ప్రాథమికంగా గెలిచింది.
అనుకరణ యుగం
మొదటి యుగంలో ప్రారంభిద్దాం, ఇది రచయితల ప్రకారం, “అనుకరణ యుగం”.
ఈ కాలంలో, సుమారు 2010 ల మధ్యలో, పరిశోధకులు డిజిటల్ అనుకరణలను ఉపయోగించారు, మానవుల మాదిరిగా ఎలా ప్రదర్శించాలో తెలుసుకోవడానికి పదేపదే ఆటలను ఆడటానికి AI మోడళ్లను పొందటానికి డిజిటల్ అనుకరణలను ఉపయోగించారు. మేము చెస్, పోకర్, అటారీ, మరియు “గ్రాన్ టురిస్మో” వంటి మిలియన్ల మరియు మిలియన్ల ఆటలను మాట్లాడుతున్నాము, మంచి ఫలితాల కోసం బహుమతులు వేలాడదీయబడ్డాయి – తద్వారా యంత్రాలకు మంచి వర్సెస్ చెడు మరియు మంచి వ్యూహాలను కొనసాగించడానికి వాటిని ప్రోత్సహించడం.
ఉపబల అభ్యాసం లేదా RL యొక్క ఈ పద్ధతి గూగుల్ యొక్క ఆల్ఫాగోను ఉత్పత్తి చేసింది. మరియు ఇది మరొక గూగుల్ మోడల్ను సృష్టించడానికి కూడా సహాయపడింది ఆల్ఫాజెరోఇది చెస్ మరియు “గో” కోసం కొత్త వ్యూహాలను కనుగొంది మరియు మానవులు ఈ ఆటలను ఆడే విధానాన్ని మార్చారు.
ఈ విధానంతో సమస్య: ఈ విధంగా శిక్షణ పొందిన యంత్రాలు ఖచ్చితంగా నిర్వచించబడిన రివార్డులతో నిర్దిష్ట సమస్యలపై బాగా పనిచేశాయి, కాని అస్పష్టమైన చెల్లింపులతో మరింత సాధారణమైన, ఓపెన్-ఎండ్ సమస్యలను పరిష్కరించలేకపోతున్నాయని రచయితలు తెలిపారు. కాబట్టి, బహుశా నిజంగా పూర్తి AI కాదు.
మానవ డేటా శకం
తదుపరి ప్రాంతం 2017 లో ప్రచురించబడిన మరో గూగుల్ రీసెర్చ్ పేపర్ ద్వారా ప్రారంభమైంది. “శ్రద్ధ మీకు కావలసిందల్లా“ఇంటర్నెట్ నుండి మానవ సృష్టించిన డేటా యొక్క పర్వతాలపై AI మోడళ్లకు శిక్షణ ఇవ్వాలని ప్రతిపాదించారు. ఈ సమాచారానికి” శ్రద్ధ “చెల్లించడానికి యంత్రాలను అనుమతించడం ద్వారా, వారు మనుషుల మాదిరిగా ప్రవర్తించడం నేర్చుకుంటారు మరియు అనేక రకాలైన వివిధ పనులలో మనతో పాటు ప్రదర్శిస్తారు.
ఇది మేము ఇప్పుడు ఉన్న యుగం, మరియు ఇది చాట్జిపిటిని ఉత్పత్తి చేసింది మరియు గ్రాఫిక్ డిజైన్, కంటెంట్ సృష్టి మరియు సాఫ్ట్వేర్ కోడింగ్ వంటి పనులను ఆటోమేట్ చేయడానికి ఎక్కువగా ఉపయోగించబడుతున్న ఇతర శక్తివంతమైన ఉత్పాదక AI నమూనాలు మరియు సాధనాలు.
ఈ యుగానికి కీలకం సాధ్యమైనంత ఎక్కువ-నాణ్యత, మానవ-ఉత్పత్తి డేటాను సేకరిస్తోంది, మరియు దానిని భారీగా ఉపయోగించడం ప్రపంచంపై అవగాహనతో AI మోడళ్లను నింపడానికి భారీ, కంప్యూట్-ఇంటెన్సివ్ శిక్షణను ఉపయోగిస్తుంది.
గూగుల్ పరిశోధకులు ఈ మానవ డేటా యుగాన్ని ప్రారంభించినప్పటికీ, ఈ వ్యక్తులు చాలా మంది సంస్థను విడిచిపెట్టారు మరియు వారి స్వంత వస్తువులను ప్రారంభించారు. చాలామంది ఓపెనైకి వెళ్లి టెక్నాలజీపై పనిచేశారు, ఇది అల్టిమేట్ ఉత్పత్తి చేసిన చాట్గ్ప్ను, ఇది చరిత్రలో అత్యంత విజయవంతమైన ఉత్పాదక AI ఉత్పత్తి. మరికొందరు ఆంత్రోపిక్ ప్రారంభించారు, ఇది మరొక ప్రముఖ జనరేటివ్ AI స్టార్టప్ క్లాడ్శక్తివంతమైన చాట్బాట్ మరియు AI ఏజెంట్.
గూగుల్ డిస్?
AI పరిశ్రమలోని చాలా మంది నిపుణులు మరియు వాల్ స్ట్రీట్లోని కొంతమంది పెట్టుబడిదారులు మరియు విశ్లేషకులు, గూగుల్ బంతిని ఇక్కడ వదిలివేసి ఉండవచ్చునని అనుకుంటారు. ఇది ఈ AI విధానంతో ముందుకు వచ్చింది, కాని ఓపెనై మరియు చాట్గ్ప్ట్ ఇప్పటివరకు చాలా చెడిపోయిన వాటితో పారిపోయాయి.
జ్యూరీ ఇంకా ముగిసిందని నేను అనుకుంటున్నాను. ఏదేమైనా, రచయితలు మానవ డేటా యుగాన్ని విడదీస్తున్నట్లు అనిపించినప్పుడు మీరు ఈ పరిస్థితి గురించి ఆలోచించలేరు.
“పారాడిగ్మ్లో మార్పు శిశువును స్నానపు నీటితో విసిరివేసిందని వాదించవచ్చు” అని వారు రాశారు. “మానవ-కేంద్రీకృత RL అపూర్వమైన ప్రవర్తనల యొక్క వెడల్పును ప్రారంభించినప్పటికీ, ఇది ఏజెంట్ యొక్క పనితీరుపై కొత్త పైకప్పును కూడా విధించింది: ఏజెంట్లు ఇప్పటికే ఉన్న మానవ జ్ఞానానికి మించి వెళ్ళలేరు.”
సిల్వర్ మరియు సుట్టన్ ఇందులో ఒక అంశం గురించి సరైనవారు. కొత్త మోడళ్లకు శిక్షణ ఇవ్వడానికి మరియు వారి సామర్థ్యాలను ముందుకు తరలించడానికి తాజా కంటెంట్ అవసరమయ్యే AI ల్యాబ్స్ మరియు పెద్ద టెక్ కంపెనీల నుండి తృప్తిపరచలేని డిమాండ్ ద్వారా అధిక-నాణ్యత మానవ డేటా సరఫరా మించిపోయింది. నేను గత సంవత్సరం వ్రాసినట్లుగా, పెద్ద ఎత్తుకు రావడం చాలా కష్టతరమైనది మరియు ఖరీదైనది మీకు సరిహద్దు ఉంది.
అనుభవ యుగం
రచయితలు దీనికి చాలా తీవ్రమైన పరిష్కారాన్ని కలిగి ఉన్నారు, మరియు ఇది ఈ కాగితంలో వారు ప్రతిపాదించిన కొత్త అనుభవంలో కొత్త శకం యొక్క గుండె వద్ద ఉంది.
మోడల్స్ మరియు ఏజెంట్లు అక్కడకు వెళ్లి వాస్తవ ప్రపంచంతో పరస్పర చర్యల ద్వారా వారి స్వంత కొత్త డేటాను సృష్టించాలని వారు సూచిస్తున్నారు.
ఇది నాగ్గింగ్ డేటా-సప్లై సమస్యను పరిష్కరిస్తుంది, వారు వాదిస్తున్నారు, ఈ క్షేత్రానికి AGI లేదా కృత్రిమ సాధారణ మేధస్సును సాధించడంలో సహాయపడతారు, ఇది సాంకేతిక పవిత్ర గ్రెయిల్, ఇక్కడ యంత్రాలు చాలా ఉపయోగకరమైన కార్యకలాపాలలో మానవులను అధిగమిస్తాయి.
“అంతిమంగా, అనుభవపూర్వక డేటా మానవ-సృష్టించిన డేటా యొక్క స్థాయి మరియు నాణ్యతను గ్రహిస్తుంది” అని సిల్వర్ మరియు సుట్టన్ వ్రాస్తారు. “ఈ ఉదాహరణ షిఫ్ట్, RL లో అల్గోరిథమిక్ పురోగతితో పాటు, అనేక డొమైన్లలో కొత్త సామర్థ్యాలను అన్లాక్ చేస్తుంది, ఇది ఏ మానవుడు కలిగి ఉన్నవారిని అధిగమిస్తుంది.”
ఏదైనా ఆధునిక తల్లిదండ్రులు తమ బిడ్డకు మంచం నుండి బయటపడమని, వారి ఫోన్ను చూడటం మానేసి, బయట ఉండి వారి స్నేహితులతో ఆడుకోవాలని చెప్పడానికి సమానమైనదిగా భావించవచ్చు. నేర్చుకోవడానికి చాలా ధనిక, సంతృప్తికరమైన మరియు మరింత విలువైన అనుభవాలు ఉన్నాయి.
క్లార్క్, ఆంత్రోపిక్ కోఫౌండర్, ఈ ప్రతిపాదన యొక్క చట్జ్పా చేత ఆకట్టుకున్నాడు.
“ఇలాంటి పేపర్లు AI పరిశ్రమలో కనిపించే విశ్వాసం యొక్క చిహ్నంగా ఉన్నాయి” అని అతను సోమవారం తన వార్తాలేఖలో రాశాడు, “ఈ ఏజెంట్లకు తగినంత స్వాతంత్ర్యం మరియు అక్షాంశాన్ని ఇవ్వాలనే umption హను ఉటంకిస్తూ, వారు ప్రపంచంతో సంభాషించగలరు మరియు వారి స్వంత డేటాను ఉత్పత్తి చేయగలరు.”
ఉదాహరణలు, మరియు ఫైనల్ డిస్
అనుభవంలోని కొత్త యుగంలో ఇది ఎలా పని చేస్తుందో రచయితలు కొన్ని సైద్ధాంతిక ఉదాహరణలను తేలుతారు.
AI హెల్త్ అసిస్టెంట్ ఒక వ్యక్తి యొక్క ఆరోగ్య లక్ష్యాలను వారి విశ్రాంతి హృదయ స్పందన రేటు, నిద్ర వ్యవధి మరియు కార్యాచరణ స్థాయిలు వంటి సంకేతాల కలయిక ఆధారంగా బహుమతిగా ఇవ్వగలడు. .
విద్యా సహాయకుడు వినియోగదారు భాషా అభ్యాసానికి గ్రౌండ్డ్ రివార్డ్ ఆధారంగా ప్రోత్సాహకం లేదా బహుమతిని అందించడానికి పరీక్షా ఫలితాలను ఉపయోగించవచ్చు.
గ్లోబల్ వార్మింగ్ను తగ్గించే లక్ష్యం ఉన్న సైన్స్ ఏజెంట్ కార్బన్ డయాక్సైడ్ స్థాయిల అనుభావిక పరిశీలనల ఆధారంగా బహుమతిని ఉపయోగించవచ్చు, వెండి మరియు సుట్టన్ సూచిస్తున్నాయి.
ఒక విధంగా చెప్పాలంటే, ఇది మునుపటి అనుకరణ యుగానికి తిరిగి రావడం, ఇది గూగుల్ నిస్సందేహంగా నడిపించింది. ఈ సమయం తప్ప, AI మోడల్స్ మరియు ఏజెంట్లు వాస్తవ ప్రపంచం నుండి నేర్చుకుంటున్నారు మరియు వీడియో గేమ్ లేదా ఇతర డిజిటల్ రాజ్యంలో ఉన్న కాకుండా వారి స్వంత డేటాను సేకరిస్తున్నారు.
ముఖ్య విషయం ఏమిటంటే, మానవ డేటా యుగానికి భిన్నంగా, AI అభివృద్ధి యొక్క ఈ కొత్త దశ కోసం ఉత్పత్తి చేయగల మరియు సేకరించగల సమాచారానికి పరిమితి ఉండకపోవచ్చు.
మా ప్రస్తుత మానవ డేటా వ్యవధిలో, ఏదో పోయింది, రచయితలు వాదించారు: ఒక ఏజెంట్ తన స్వంత జ్ఞానాన్ని స్వీయ-చర్చ చేయగల సామర్థ్యం.
“ఈ గ్రౌండింగ్ లేకుండా, ఒక ఏజెంట్, ఎంత అధునాతనంగా ఉన్నా, ఇప్పటికే ఉన్న మానవ జ్ఞానం యొక్క ఎకో చాంబర్గా మారుతుంది” అని సిల్వర్ మరియు సుట్టన్ ఓపెనైకి ఫైనల్ డిస్లో రాశారు.