Tech

మీ కోసం ఏ AI ఉందో గుర్తించడం మీరు అనుకున్నదానికంటే కష్టం

10 3 minutes read

మీ కోసం ఏ AI ఉందో గుర్తించడం మీరు అనుకున్నదానికంటే కష్టం

పని మరియు జీవితంలో మీకు సహాయం చేయడానికి ఉత్తమమైన AI ని ఎంచుకోవడం కష్టం. GPT-4O, 4.5, 4.1, O1, O1-PRO, O3-MINI, లేదా O3-MINI- హై గురించి ఏమిటి? ఓపెనై కాకపోతే, మీరు మెటా, గూగుల్ లేదా ఆంత్రోపిక్ ఉంచిన అనేక మోడళ్లలో ఒకదానికి వెళ్ళవచ్చు.

ఈ సంవత్సరం ఇప్పటికే ప్రధాన AI కంపెనీల నుండి కనీసం డజను మోడల్ విడుదలలను చూసింది, మరియు ఇది అర్థం చేసుకోవడానికి గందరగోళంగా ఉంటుంది, ఇది నిజంగా పోటీతత్వాన్ని కలిగి ఉంది. ఆ విడుదలలలో చాలా మంది డెవలపర్లు తమ AI ని ఏదో ఒక విధంగా ఉన్నతమైన “బెంచ్మార్క్” ఫలితాలను కలిగి ఉన్నారని పేర్కొన్నారు.

కానీ వాటిని పోల్చడానికి ఆ మార్గం వారు కఠినంగా లేదా నమ్మదగినదిగా ఉండకపోవచ్చు అనే ఆందోళనలను ఎదుర్కొంది.

ఈ నెల ప్రారంభంలో, మెటా తన లామా కుటుంబంలో రెండు కొత్త మోడళ్లను విడుదల చేసింది, గూగుల్ మరియు మిస్ట్రాల్ నుండి పోల్చదగిన పరిమాణ నమూనాల కంటే “మంచి ఫలితాలను” అందించారని తెలిపింది. ఏదేమైనా, మెటా అప్పుడు ఒక బెంచ్ మార్క్ చేసినట్లు ఆరోపణలు ఎదుర్కొంది.

మోడల్ పనితీరుపై క్రౌడ్‌సోర్స్ యూజర్ ఓటు వేసిన AI బెంచ్‌మార్క్ అయిన LMarena, మెటా “స్పష్టంగా చెప్పాలి” అని, ఇది లామా 4 మావెరిక్ యొక్క సంస్కరణను సమర్పించిందని, దాని పరీక్షా ఫార్మాట్ కోసం మెరుగైన పని చేయడానికి “అనుకూలీకరించబడింది”.

“మా పాలసీ యొక్క మెటా యొక్క వివరణ మోడల్ ప్రొవైడర్ల నుండి మేము ఆశించే దానితో సరిపోలలేదు” అని ల్మరేనా ఒక లో చెప్పారు X పోస్ట్.

మెటా ప్రతినిధి బిజినెస్ ఇన్సైడర్‌తో మాట్లాడుతూ “లామా -4-మావెరిక్ -03-26-ఎక్స్‌పెరిమెంటల్ ‘అనేది మేము ప్రయోగాలు చేసిన చాట్-ఆప్టిమైజ్డ్ వెర్షన్, అది LMarena లో కూడా బాగా పనిచేస్తుంది.”

వారు జోడించారు: “మేము ఇప్పుడు మా ఓపెన్ సోర్స్ వెర్షన్‌ను విడుదల చేసాము మరియు డెవలపర్లు వారి స్వంత వినియోగ కేసుల కోసం లామా 4 ను ఎలా అనుకూలీకరించారో చూస్తాము.”

అరేనాలో లామా -4 యొక్క తాజా విడుదల గురించి మేము సంఘం నుండి ప్రశ్నలను చూశాము. పూర్తి పారదర్శకతను నిర్ధారించడానికి, మేము ప్రజల సమీక్ష కోసం 2,000+ హెడ్-టు-హెడ్ యుద్ధ ఫలితాలను విడుదల చేస్తున్నాము. ఇందులో వినియోగదారు ప్రాంప్ట్‌లు, మోడల్ స్పందనలు మరియు వినియోగదారు ప్రాధాన్యతలు ఉన్నాయి. (తదుపరి ట్వీట్‌లో లింక్)

ప్రారంభ…

– lmarena.ai (గతంలో lmsys.org) (@lmarena_ai) ఏప్రిల్ 8, 2025

బెంచ్ మార్క్ సమస్య

SAGA AI పరిశ్రమ బెంచ్‌మార్క్‌లతో ఎక్కువగా ఉన్న విస్తృత సమస్యలతో మాట్లాడుతుంది.

AI ను అభివృద్ధి చేయడానికి బిలియన్ డాలర్ల ఖర్చు చేసే కంపెనీలు చివరిదానికంటే శక్తివంతమైన మోడళ్లను విడుదల చేయడంలో చాలా స్వారీ చేస్తాయి, ఇది అభిజ్ఞా శాస్త్రవేత్త మరియు AI పరిశోధకుడు గ్యారీ మార్కస్ సమస్యాత్మకం అని చెప్పారు.

“ఈ రోజుల్లో, బెంచ్‌మార్క్‌లపై పనితీరుపై చాలా డబ్బుతో విశ్రాంతి తీసుకోవడంతో, పెద్ద టెక్ కంపెనీలకు ‘పరీక్షకు బోధించే’ శిక్షణ డేటాను రూపొందించడం చాలా ఉత్సాహం కలిగిస్తుంది, ఆపై బెంచ్‌మార్క్‌లు మరింత ప్రామాణికతను కోల్పోతాయి” అని అతను ఓవరైప్డ్ గా చూసే AI పరిశ్రమ యొక్క ప్రాంతాలను విమర్శించిన మార్కస్ BI కి చెప్పారు.

బెంచ్‌మార్క్‌లు సరైన విషయాలను కొలుస్తున్నాయా అనే ప్రశ్న కూడా ఉంది.

ఫిబ్రవరి పేపర్‌లో “మేము AI బెంచ్‌మార్క్‌లను విశ్వసించగలమా? AI మూల్యాంకనంలో ప్రస్తుత సమస్యల యొక్క ఇంటర్ డిసిప్లినరీ సమీక్ష,” యూరోపియన్ కమిషన్ ఉమ్మడి పరిశోధన కేంద్రం పరిశోధకులు నేటి విధానంలో ప్రధాన సమస్యలు ఉన్నాయని తేల్చారు.

“ప్రస్తుత బెంచ్‌మార్కింగ్ పద్ధతుల్లో దైహిక లోపాలు” ఉన్నాయని పరిశోధకులు చెప్పారు, ఇవి “సాంస్కృతిక, వాణిజ్య మరియు పోటీ డైనమిక్స్ ద్వారా ప్రాథమికంగా రూపొందించబడ్డాయి, ఇవి విస్తృత సామాజిక ఆందోళనల వ్యయంతో అత్యాధునిక పనితీరుకు తరచుగా ప్రాధాన్యతనిస్తాయి.”

అదేవిధంగా, AI సెక్యూరిటీ స్టార్టప్ జీరోపథ్ యొక్క కోఫౌండర్ మరియు CEO డీన్ వాలెంటైన్ మార్చి బ్లాగ్ పోస్ట్ చెప్పారు “ఇటీవలి AI మోడల్ పురోగతి ఎక్కువగా బుల్షిట్ లాగా అనిపిస్తుంది. “

జూన్ 2024 లో, ఆంత్రోపిక్ యొక్క 3.5 సొనెట్ విడుదలైనప్పటి నుండి “ఒక విధమైన మెరుగుదల” ఉందని చెప్పుకునే వివిధ మోడళ్ల పనితీరును తాను మరియు అతని బృందం అంచనా వేస్తున్నట్లు వాలెంటైన్ తన పదవిలో చెప్పారు.

అతని బృందం ప్రయత్నించిన కొత్త మోడళ్లలో ఏదీ తన సంస్థ యొక్క అంతర్గత బెంచ్‌మార్క్‌లలో లేదా కొత్త దోషాలను కనుగొనటానికి డెవలపర్‌ల సామర్థ్యాలలో “గణనీయమైన తేడా” చేయలేదు. వారు “మాట్లాడటానికి మరింత సరదాగా ఉండవచ్చు” అని ఆయన అన్నారు, కాని వారు “ఆర్థిక ఉపయోగం లేదా సాధారణత యొక్క ప్రతిబింబించలేదు.”

అతను చెప్పినట్లుగా, “మోడల్స్ యొక్క మేధో సామర్థ్యాన్ని కూడా ఇప్పుడు ఎలా కొలవాలో పరిశ్రమ గుర్తించలేకపోతే, అవి ఎక్కువగా చాట్‌రూమ్‌లకు పరిమితం చేయబడితే, భవిష్యత్తులో AI ని ఎంత క్లిష్టంగా కొలుస్తారో చూడటం కష్టం.

బెంచ్‌మార్క్‌లు ‘మంచి దిక్సూచి’ కావచ్చు

ముఖాన్ని కౌగిలించుకోవడంలో మెషిన్ లెర్నింగ్ ఇంజనీర్ నాథన్ హబీబ్ BI కి మాట్లాడుతూ, అనేక అరేనా-శైలి బెంచ్‌మార్క్‌లతో సమస్య ఏమిటంటే వారు క్రౌడ్‌సోర్స్డ్ ఓట్ల ద్వారా మానవ ప్రాధాన్యత వైపు వంగి ఉంటారు, అంటే “మీరు మీ మోడల్‌ను సామర్ధ్యం కంటే ఇష్టానికి ఆప్టిమైజ్ చేయవచ్చు.”

“బెంచ్‌మార్క్‌లు సమాజానికి నిజంగా సేవ చేయడానికి, మాకు అనేక భద్రతలు అవసరం: నవీనమైన డేటా, పునరుత్పత్తి ఫలితాలు, తటస్థ మూడవ పార్టీ మూల్యాంకనాలు మరియు సమాధానం కాలుష్యం నుండి రక్షణ” అని హబీబ్ చెప్పారు, గియా బెంచ్మార్క్ దీన్ని చేసే సాధనానికి ఉదాహరణగా.

బెంచ్‌మార్క్‌లు పరిపూర్ణంగా లేనప్పటికీ, “అవి మనం ఎక్కడికి వెళ్ళాలో మంచి దిక్సూచి అని ఆయన అన్నారు.

మార్కస్ ప్రకారం, తక్షణ పరిష్కారం లేదు. “మంచి పరీక్షలు చేయడం చాలా కష్టం, మరియు ఆ పరీక్షలను గేమింగ్ చేయకుండా ప్రజలను ఉంచడం మరింత కష్టం” అని అతను BI కి చెప్పాడు.

చాలా పరీక్షలు “భాషా అవగాహన” ను కొలవడానికి ప్రయత్నిస్తాయని, కానీ “భాషపై లోతైన అవగాహన లేకుండా, చాలా విషయాలను గుర్తుంచుకోవడం ద్వారా మీరు ఈ పరీక్షలలో చాలా నకిలీ చేయగలరని ఆయన అన్నారు.

మార్కస్ జోడించారు, “ప్రత్యక్ష ప్రమాదం ఏమిటంటే, కొత్త వ్యవస్థలు మంచివని మరియు ఆ ఆవరణలో కొంత డబ్బు ఖర్చు చేస్తారని వినియోగదారులకు చెప్పబడింది.”

కాబట్టి, AI మోడళ్ల విస్తృతమైన ప్రపంచాన్ని నావిగేట్ చేయడం గురించి ఎవరైనా ఎలా వెళ్ళాలి? డీప్సీక్-ఆర్ 1, డీప్సీక్-వి 3, క్లాడ్ 3.5 హైకూ, లేదా క్లాడ్ 3.7 సొనెట్ నుండి ఏది మంచిది అని మీరు ఎలా తెలుసుకోగలరు?

“లెక్కలేనన్ని ‘స్టేట్-ఆఫ్-ది-ఆర్ట్’ వాదనలలో సరైన మోడల్‌ను ఎన్నుకునే విషయానికి వస్తే, ఉత్తమమైన మోడల్ ప్రతి బెంచ్‌మార్క్‌ను గెలుచుకునేది కాదని గుర్తుంచుకోండి; ఇది మీ నిర్దిష్ట సమస్యను చక్కగా పరిష్కరించేది” అని ముఖాన్ని కౌగిలించుకునే AI పరిశోధనా శాస్త్రవేత్త క్లెమెంటైన్ ఫౌరియర్, BI కి చెప్పారు.

“మోడల్‌ను అత్యధిక స్కోర్‌తో వెంబడించవద్దు; మీకు ముఖ్యమైన వాటిపై అత్యధిక స్కోర్ చేసే మోడల్‌ను వెంబడించండి” అని ఆమె చెప్పింది