మీ కోసం ఏ AI ఉందో గుర్తించడం మీరు అనుకున్నదానికంటే కష్టం
పని మరియు జీవితంలో మీకు సహాయం చేయడానికి ఉత్తమమైన AI ని ఎంచుకోవడం కష్టం. GPT-4O, 4.5, 4.1, O1, O1-PRO, O3-MINI, లేదా O3-MINI- హై గురించి ఏమిటి? ఓపెనై కాకపోతే, మీరు మెటా, గూగుల్ లేదా ఆంత్రోపిక్ ఉంచిన అనేక మోడళ్లలో ఒకదానికి వెళ్ళవచ్చు.
ఈ సంవత్సరం ఇప్పటికే ప్రధాన AI కంపెనీల నుండి కనీసం డజను మోడల్ విడుదలలను చూసింది, మరియు ఇది అర్థం చేసుకోవడానికి గందరగోళంగా ఉంటుంది, ఇది నిజంగా పోటీతత్వాన్ని కలిగి ఉంది. ఆ విడుదలలలో చాలా మంది డెవలపర్లు తమ AI ని ఏదో ఒక విధంగా ఉన్నతమైన “బెంచ్మార్క్” ఫలితాలను కలిగి ఉన్నారని పేర్కొన్నారు.
కానీ వాటిని పోల్చడానికి ఆ మార్గం వారు కఠినంగా లేదా నమ్మదగినదిగా ఉండకపోవచ్చు అనే ఆందోళనలను ఎదుర్కొంది.
ఈ నెల ప్రారంభంలో, మెటా తన లామా కుటుంబంలో రెండు కొత్త మోడళ్లను విడుదల చేసింది, గూగుల్ మరియు మిస్ట్రాల్ నుండి పోల్చదగిన పరిమాణ నమూనాల కంటే “మంచి ఫలితాలను” అందించారని తెలిపింది. ఏదేమైనా, మెటా అప్పుడు ఒక బెంచ్ మార్క్ చేసినట్లు ఆరోపణలు ఎదుర్కొంది.
మోడల్ పనితీరుపై క్రౌడ్సోర్స్ యూజర్ ఓటు వేసిన AI బెంచ్మార్క్ అయిన LMarena, మెటా “స్పష్టంగా చెప్పాలి” అని, ఇది లామా 4 మావెరిక్ యొక్క సంస్కరణను సమర్పించిందని, దాని పరీక్షా ఫార్మాట్ కోసం మెరుగైన పని చేయడానికి “అనుకూలీకరించబడింది”.
“మా పాలసీ యొక్క మెటా యొక్క వివరణ మోడల్ ప్రొవైడర్ల నుండి మేము ఆశించే దానితో సరిపోలలేదు” అని ల్మరేనా ఒక లో చెప్పారు X పోస్ట్.
మెటా ప్రతినిధి బిజినెస్ ఇన్సైడర్తో మాట్లాడుతూ “లామా -4-మావెరిక్ -03-26-ఎక్స్పెరిమెంటల్ ‘అనేది మేము ప్రయోగాలు చేసిన చాట్-ఆప్టిమైజ్డ్ వెర్షన్, అది LMarena లో కూడా బాగా పనిచేస్తుంది.”
వారు జోడించారు: “మేము ఇప్పుడు మా ఓపెన్ సోర్స్ వెర్షన్ను విడుదల చేసాము మరియు డెవలపర్లు వారి స్వంత వినియోగ కేసుల కోసం లామా 4 ను ఎలా అనుకూలీకరించారో చూస్తాము.”
బెంచ్ మార్క్ సమస్య
SAGA AI పరిశ్రమ బెంచ్మార్క్లతో ఎక్కువగా ఉన్న విస్తృత సమస్యలతో మాట్లాడుతుంది.
AI ను అభివృద్ధి చేయడానికి బిలియన్ డాలర్ల ఖర్చు చేసే కంపెనీలు చివరిదానికంటే శక్తివంతమైన మోడళ్లను విడుదల చేయడంలో చాలా స్వారీ చేస్తాయి, ఇది అభిజ్ఞా శాస్త్రవేత్త మరియు AI పరిశోధకుడు గ్యారీ మార్కస్ సమస్యాత్మకం అని చెప్పారు.
“ఈ రోజుల్లో, బెంచ్మార్క్లపై పనితీరుపై చాలా డబ్బుతో విశ్రాంతి తీసుకోవడంతో, పెద్ద టెక్ కంపెనీలకు ‘పరీక్షకు బోధించే’ శిక్షణ డేటాను రూపొందించడం చాలా ఉత్సాహం కలిగిస్తుంది, ఆపై బెంచ్మార్క్లు మరింత ప్రామాణికతను కోల్పోతాయి” అని అతను ఓవరైప్డ్ గా చూసే AI పరిశ్రమ యొక్క ప్రాంతాలను విమర్శించిన మార్కస్ BI కి చెప్పారు.
బెంచ్మార్క్లు సరైన విషయాలను కొలుస్తున్నాయా అనే ప్రశ్న కూడా ఉంది.
ఫిబ్రవరి పేపర్లో “మేము AI బెంచ్మార్క్లను విశ్వసించగలమా? AI మూల్యాంకనంలో ప్రస్తుత సమస్యల యొక్క ఇంటర్ డిసిప్లినరీ సమీక్ష,” యూరోపియన్ కమిషన్ ఉమ్మడి పరిశోధన కేంద్రం పరిశోధకులు నేటి విధానంలో ప్రధాన సమస్యలు ఉన్నాయని తేల్చారు.
“ప్రస్తుత బెంచ్మార్కింగ్ పద్ధతుల్లో దైహిక లోపాలు” ఉన్నాయని పరిశోధకులు చెప్పారు, ఇవి “సాంస్కృతిక, వాణిజ్య మరియు పోటీ డైనమిక్స్ ద్వారా ప్రాథమికంగా రూపొందించబడ్డాయి, ఇవి విస్తృత సామాజిక ఆందోళనల వ్యయంతో అత్యాధునిక పనితీరుకు తరచుగా ప్రాధాన్యతనిస్తాయి.”
అదేవిధంగా, AI సెక్యూరిటీ స్టార్టప్ జీరోపథ్ యొక్క కోఫౌండర్ మరియు CEO డీన్ వాలెంటైన్ మార్చి బ్లాగ్ పోస్ట్ చెప్పారు “ఇటీవలి AI మోడల్ పురోగతి ఎక్కువగా బుల్షిట్ లాగా అనిపిస్తుంది. “
జూన్ 2024 లో, ఆంత్రోపిక్ యొక్క 3.5 సొనెట్ విడుదలైనప్పటి నుండి “ఒక విధమైన మెరుగుదల” ఉందని చెప్పుకునే వివిధ మోడళ్ల పనితీరును తాను మరియు అతని బృందం అంచనా వేస్తున్నట్లు వాలెంటైన్ తన పదవిలో చెప్పారు.
అతని బృందం ప్రయత్నించిన కొత్త మోడళ్లలో ఏదీ తన సంస్థ యొక్క అంతర్గత బెంచ్మార్క్లలో లేదా కొత్త దోషాలను కనుగొనటానికి డెవలపర్ల సామర్థ్యాలలో “గణనీయమైన తేడా” చేయలేదు. వారు “మాట్లాడటానికి మరింత సరదాగా ఉండవచ్చు” అని ఆయన అన్నారు, కాని వారు “ఆర్థిక ఉపయోగం లేదా సాధారణత యొక్క ప్రతిబింబించలేదు.”
అతను చెప్పినట్లుగా, “మోడల్స్ యొక్క మేధో సామర్థ్యాన్ని కూడా ఇప్పుడు ఎలా కొలవాలో పరిశ్రమ గుర్తించలేకపోతే, అవి ఎక్కువగా చాట్రూమ్లకు పరిమితం చేయబడితే, భవిష్యత్తులో AI ని ఎంత క్లిష్టంగా కొలుస్తారో చూడటం కష్టం.
బెంచ్మార్క్లు ‘మంచి దిక్సూచి’ కావచ్చు
ముఖాన్ని కౌగిలించుకోవడంలో మెషిన్ లెర్నింగ్ ఇంజనీర్ నాథన్ హబీబ్ BI కి మాట్లాడుతూ, అనేక అరేనా-శైలి బెంచ్మార్క్లతో సమస్య ఏమిటంటే వారు క్రౌడ్సోర్స్డ్ ఓట్ల ద్వారా మానవ ప్రాధాన్యత వైపు వంగి ఉంటారు, అంటే “మీరు మీ మోడల్ను సామర్ధ్యం కంటే ఇష్టానికి ఆప్టిమైజ్ చేయవచ్చు.”
“బెంచ్మార్క్లు సమాజానికి నిజంగా సేవ చేయడానికి, మాకు అనేక భద్రతలు అవసరం: నవీనమైన డేటా, పునరుత్పత్తి ఫలితాలు, తటస్థ మూడవ పార్టీ మూల్యాంకనాలు మరియు సమాధానం కాలుష్యం నుండి రక్షణ” అని హబీబ్ చెప్పారు, గియా బెంచ్మార్క్ దీన్ని చేసే సాధనానికి ఉదాహరణగా.
బెంచ్మార్క్లు పరిపూర్ణంగా లేనప్పటికీ, “అవి మనం ఎక్కడికి వెళ్ళాలో మంచి దిక్సూచి అని ఆయన అన్నారు.
మార్కస్ ప్రకారం, తక్షణ పరిష్కారం లేదు. “మంచి పరీక్షలు చేయడం చాలా కష్టం, మరియు ఆ పరీక్షలను గేమింగ్ చేయకుండా ప్రజలను ఉంచడం మరింత కష్టం” అని అతను BI కి చెప్పాడు.
చాలా పరీక్షలు “భాషా అవగాహన” ను కొలవడానికి ప్రయత్నిస్తాయని, కానీ “భాషపై లోతైన అవగాహన లేకుండా, చాలా విషయాలను గుర్తుంచుకోవడం ద్వారా మీరు ఈ పరీక్షలలో చాలా నకిలీ చేయగలరని ఆయన అన్నారు.
మార్కస్ జోడించారు, “ప్రత్యక్ష ప్రమాదం ఏమిటంటే, కొత్త వ్యవస్థలు మంచివని మరియు ఆ ఆవరణలో కొంత డబ్బు ఖర్చు చేస్తారని వినియోగదారులకు చెప్పబడింది.”
కాబట్టి, AI మోడళ్ల విస్తృతమైన ప్రపంచాన్ని నావిగేట్ చేయడం గురించి ఎవరైనా ఎలా వెళ్ళాలి? డీప్సీక్-ఆర్ 1, డీప్సీక్-వి 3, క్లాడ్ 3.5 హైకూ, లేదా క్లాడ్ 3.7 సొనెట్ నుండి ఏది మంచిది అని మీరు ఎలా తెలుసుకోగలరు?
“లెక్కలేనన్ని ‘స్టేట్-ఆఫ్-ది-ఆర్ట్’ వాదనలలో సరైన మోడల్ను ఎన్నుకునే విషయానికి వస్తే, ఉత్తమమైన మోడల్ ప్రతి బెంచ్మార్క్ను గెలుచుకునేది కాదని గుర్తుంచుకోండి; ఇది మీ నిర్దిష్ట సమస్యను చక్కగా పరిష్కరించేది” అని ముఖాన్ని కౌగిలించుకునే AI పరిశోధనా శాస్త్రవేత్త క్లెమెంటైన్ ఫౌరియర్, BI కి చెప్పారు.
“మోడల్ను అత్యధిక స్కోర్తో వెంబడించవద్దు; మీకు ముఖ్యమైన వాటిపై అత్యధిక స్కోర్ చేసే మోడల్ను వెంబడించండి” అని ఆమె చెప్పింది