Testiranje "najpametnijeg na svijetu" Grok3

Aipu Waton Group (1)

Uvođenje

Mislite li da će Grok3 biti "krajnja točka" unaprijed obučenih modela?

Elon Musk i Xai tim zvanično su pokrenuli najnoviju verziju Grok, Grok3, za vrijeme livestream-a. Prije ovog događaja, značajan iznos povezanih informacija, zajedno s mošusom 24/7 promotivnim hypeom, podigao je globalna očekivanja za GROK3 do neviđenih nivoa. Pre nedelju dana, mošus je samouvjereno izjavio tokom livestream-a dok je komentirao Deepseek R1 ", uskoro će se pokrenuti bolji AI model." Iz predstavljenih podataka, Grok3 je navodno nadmašio sve trenutne mainstream modele u mjerilima za matematiku, nauku i programiranje, a mošus čak i tvrdeći da će GROK3 biti korišten za računske zadatke u vezi sa Spacexovim MAR-ovim misijama, predviđajući "proboj na nobelovom nagradu u roku od tri godine". Međutim, ovo su trenutno samo mošuške tvrdnje. Nakon lansiranja testirao sam najnoviju beta verziju GROK3 i postavila klasični trik pitanje za velike modele: "Što je veće, 9.11 ili 9.9?" Na žalost, bez ikakvih kvalifikatora ili oznaka, takozvani najpametniji Grok3 još uvijek nije mogao ispravno odgovoriti na ovo pitanje. Grok3 nije precizno identificirao značenje pitanja.

 

Ovaj test je brzo izvukao značajnu pažnju od mnogih prijatelja, a slučajno su različiti slični testovi u inozemstvu pokazali GROK3 boreći se s osnovnom pitanju fizike / matematike poput "koji lopta prvo pada iz nagnute tornja Pize?" Stoga je bilo šaljivo označeno kao "genij koji ne želi odgovoriti na jednostavna pitanja".

640

Grok3 je dobar, ali nije bolji od R1 ili O1-Pro.

Groko3 je iskusio "neuspjehe" na mnogim uobičajenim testovima znanja u praksi. Tijekom XAI lansirne manifestacije, mošus je pokazao pomoću GROK3 da analiziraju klase znakova i efekte iz igarne putanje izgnanika 2, koji je tvrdio da igra često, ali većina odgovora koje je Groko3 bile netačne. Mošus tokom livestream nisu primijetili ovo očito pitanje.

 

Ova greška nije samo daljnjim dokazima za inozemne netizenke podruga mošusa za "pronalaženje zamjena" u igrama, ali su i postavile značajne zabrinutosti u vezi sa Grokovim pouzdanošću u praktičnim primjenama. Za takav "genij", bez obzira na njegove stvarne sposobnosti, njegova pouzdanost u izuzetno složenim scenarijima aplikacija, poput MARS-ovih istraživačkih zadataka, ostaje u sumnji.

 

Trenutno su mnogi testiri koji su dobili pristup Groku prije nekoliko sedmica, a oni koji su samo testirali mogućnosti modela nekoliko sati, sve ukazuju na zajednički zaključak: "Grok3 je dobar, ali nije bolji od R1 ili O1-Pro."

640 (1)

Kritička perspektiva na "ometaju Nvidiju"

U zvanično predstavljenom PPT-u, Grok3 je pokazao "daleko napred" u chatbot areni, ali ove pametno korištene grafičke tehnike: vertikalna osovina na lideru samo u postrojenju od 1400-1300, čineći originalne razlike u 1% u testnim rezultatima u ovoj prezentaciji.

640

U stvarnim rezultatima bodovanja modela, Grok3 je samo 1-2% ispred Deepseek R1 i GPT-4.0, što odgovara mnogim korisnicima iskustva u praktičnim testovima koji su pronašli "bez primjetnosti." Grok3 samo prelazi svoje nasljednike za 1% -2%.

640

Iako je Grok3 postigao viši od svih trenutno javnih testiranih modela, mnogi ne uzimaju ovo ozbiljno: nakon svega, Xai je prethodno kritizirao za "manipulaciju rezultata" u eri Grok2. Kao što je voditeljica kažnjavana duljina odgovora, rezultati su u velikoj mjeri smanjeni, vodeći insuderi u industriji često kritizirati fenomen "visokog bodovanja, ali niske sposobnosti".

 

Da li se putem vodene ploče "manipulacije" ili dizajnerski trikovi na ilustracijama otkrivaju Xai i Musku opsesiju pojmu "vodećeg paketa" u modelskim mogućnostima. Mošus je platio strma cijenu za ove marže: Tokom lansiranja se pohvalio korištenjem 200.000 H100 GPU-a (tvrdeći "preko 100.000" tokom livestream-a) i postizanje ukupnog vremena za obuku od 200 miliona sati. To je vodio da vjeruju da predstavlja još jednu značajnu blagodati za GPU industrije i razmotriti utjecaj Deepseekova na sektor kao "budalasto". Značajno, neki vjeruju da će čista računarska moć biti budućnost treninga modela.

 

Međutim, neki Netizeni uporedili su potrošnju 2000 H800 GPU-a tokom dva mjeseca za proizvodnju Deepseek V3, izračunavajući da je stvarna potrošnja električne energije GROK3 iznosi 263 puta od V3. GAP između Deepseek V3, koji je postigao 1402 boda, a Grok3 je samo ispod 100 bodova. Nakon puštanja ovih podataka, mnogi su brzo shvatili da iza Grokovog naslova kao "najjači svjetski" leži jasan marginalan komunalni učinak - logika većih modela koji generiraju jače performanse.

640 (2)

Čak i sa "visokim bodovanjem, ali malim sposobnostima", Grok2 je imao ogromne količine visokokvalitetnih prvih stranačkih podataka iz platforme X (Twitter) za podršku upotrebi. Međutim, u treningu GROK3, XAI je prirodno naišao na "strop" da je Openai trenutno lica - nedostatak premijskih podataka o obuci brzo izlaže marginalnu korisnost mogućnosti modela.

 

Programeri GROK3 i mošusa su vjerovatno da su ove činjenice duboko razumjeli, zbog čega se mošus kontinuirano spominju na društvenim medijima da korisnici verzije doživljavaju "još uvijek samo beta" i da će "puna verzija biti puštena u narednim mjesecima." Mošus je preuzeo ulogu GROK3-ovog menadžera proizvoda, što sugerira da korisnici pružaju povratne informacije o različitim problemima na susretu u odjeljku za komentare. Možda je najteže pratio menadžer proizvoda na Zemlji.

 

Ipak, u roku od jednog dana učinak GROK3 nesumnjivo podiže alarme za one koji se nadaju da se oslanjaju na "masivni računski mišić" za treniranje jačih velikih modela: na osnovu javno dostupnih Microsoftovih informacija, Openai's GPT-4 ima veličinu parametara od 1,8 biliona, preko deset puta od GPT-3. Glasine sugeriraju da bi veličina parametra GPT-4.5 mogla biti još veća.

 

Kako se model parametra veličine zasebljuju, troškovi obuke su takođe skočni. Sa Grokovom prisutnošću, kandidaturama poput GPT-4.5 i drugih koji žele nastaviti "paljenje novca" kako bi postigli bolji performanse modela kroz veličinu parametra mora uzeti u obzir strop koji je sada jasno na vidiku i razmišlja o tome kako da je prevlada. U ovom trenutku, Bivska suljica, bivši glavni naučnik na Openaiju, prethodno je izjavio prošlog decembra, "Predškolska obuka sa kojima smo upoznat će se kraju", koja je ukazala u raspravu, poticaj napore da pronađe istinski put za obuku velikih modela.

640 (3)

Ilya je gledište zvučalo je alarm u industriji. Točno je predvidio neposrednu iscrpljivanje pristupačnih novih podataka, što je dovelo do situacije u kojoj se izvedba ne mogu nastaviti poboljšati prikupljanjem podataka, kako bi se to iscrpila fosilnim gorivima. Naveo je da je "poput nafte, sadržaj koji se generira ljudima na Internetu ograničen resurs." U Stskever-ovoj predviđanjima, sljedeća generacija modela, nakon treninga, posjeduje "pravu autonomiju" i mogućnosti obrazloženja "slično ljudskom mozgu."

 

Za razliku od današnjih unaprijed obučenih modela koji se oslanjaju na podudaranje sadržaja (na osnovu prethodno naučenog sadržaja modela), budući AI sustavi moći će učiti i uspostaviti metodologije za rješavanje problema na "razmišljanju" ljudskog mozga. Čovjek može postići temeljnu poznavanje tema sa samo osnovnom profesionalnom literaturom, dok AI veliki model zahtijeva milione podataka da bi se postigla samo osnovna efikasnost ulazne ulazne razine. Čak i kada se formulacija neznatno promijeni, ta osnovna pitanja ne mogu se pravilno shvatiti, ilustrirati da se model nije istinski poboljšao u inteligenciji: Osnovna, ali nemorna pitanja navedena na početku članka predstavljaju jasan primjer ove pojave.

微信图片 _20240614024031.jpg1

Zaključak

Međutim, izvan grube sile, ako Grok3 zaista uspije u otkrivanju industriji da "unaprijed obučeni modeli približavaju se svom kraju", to bi nosilo značajne implikacije na terenu.

Možda ćemo postepeno saživjeti da ćemo postepeno svestići više slučajeva poput Fei-Fei Livog primjera "podešavanje modela visokih performansi na određenom skupu podataka za samo 50 dolara", na kraju otkriva istinski put do AGI-ja.

Pronađite rješenje kabla ELV

Kontrolni kablovi

Za BMS, autobus, industrijski, instrumentacijski kabel.

Strukturirani sistem kabliranja

Mreža i podaci, vlakno-optički kabl, patch kabel, moduli, prednji ploča

2024 Izložbe i događaji Pregled

18. april-18., 2024. srednjoistok-energija u Dubaiju

18. april-18., 2024. Securika u Moskvi

9. maja, 2024 Novi proizvodi i tehnologije Pokretanje događaja u Šangaju

Oct.22.-25., 2024. Sigurnost Kina u Pekingu

Nov.19-20, 2024 Povezani Svijet KSA


Vrijeme objavljivanja: Feb-19-2025