Uvod

Mislite li da će Grok3 biti "krajnja tačka" prethodno obučenih modela?

Elon Musk i xAI tim su zvanično lansirali najnoviju verziju Groka, Grok3, tokom livestreama. Prije ovog događaja, značajna količina povezanih informacija, zajedno s Muskovom 24/7 promotivnom pompom, podigla je globalna očekivanja za Grok3 na neviđene nivoe. Prije samo sedmicu dana, Musk je samouvjereno izjavio tokom livestreama, komentarišući DeepSeek R1: "xAI će uskoro lansirati bolji AI model." Na osnovu podataka predstavljenih uživo, Grok3 je navodno nadmašio sve trenutne mainstream modele u mjerilima za matematiku, nauku i programiranje, a Musk je čak tvrdio da će se Grok3 koristiti za računarske zadatke vezane za SpaceX-ove misije na Mars, predviđajući "proboje na nivou Nobelove nagrade u roku od tri godine". Međutim, ovo su trenutno samo Muskove tvrdnje. Nakon lansiranja, testirao sam najnoviju beta verziju Grok3 i postavio klasično trik pitanje za velike modele: "Koji je veći, 9,11 ili 9,9?" Nažalost, bez ikakvih kvalifikatora ili oznaka, takozvani najpametniji Grok3 i dalje nije mogao tačno odgovoriti na ovo pitanje. Grok3 nije uspio precizno identifikovati značenje pitanja.

Ovaj test je brzo privukao znatnu pažnju mnogih prijatelja, a slučajno su i razni slični testovi u inostranstvu pokazali da se Grok3 muči s osnovnim pitanjima iz fizike/matematike poput "Koja kugla prva pada s Kosog tornja u Pizi?". Stoga je duhovito nazvan "genijem koji ne želi odgovoriti na jednostavna pitanja".

Grok3 je dobar, ali nije bolji od R1 ili o1-Pro.

Grok3 je u praksi doživio "neuspjehe" na mnogim testovima općeg znanja. Tokom događaja lansiranja xAI-a, Musk je demonstrirao korištenje Grok3-a za analizu klasa likova i efekata iz igre Path of Exile 2, koju je, kako je tvrdio, često igrao, ali većina odgovora koje je Grok3 dao bila je netačna. Musk tokom prijenosa uživo nije primijetio ovaj očigledan problem.

Ova greška ne samo da je pružila dodatni dokaz stranim korisnicima interneta da se rugaju Musku zbog "pronalaženja zamjene" u igrama, već je i izazvala značajnu zabrinutost u vezi s pouzdanošću Grok3 u praktičnim primjenama. Za takvog "genija", bez obzira na njegove stvarne mogućnosti, njegova pouzdanost u izuzetno složenim scenarijima primjene, poput zadataka istraživanja Marsa, ostaje pod znakom pitanja.

Trenutno, mnogi testeri koji su dobili pristup Grok3 prije nekoliko sedmica, i oni koji su jučer testirali mogućnosti modela nekoliko sati, svi ukazuju na zajednički zaključak: "Grok3 je dobar, ali nije bolji od R1 ili o1-Pro."

Kritička perspektiva o "poremećaju Nvidije"

U zvanično predstavljenoj PPT prezentaciji tokom objavljivanja, Grok3 je pokazao da je "daleko ispred" u Chatbot Areni, ali je pametno koristio grafičke tehnike: vertikalna osa na rang listi je prikazivala samo rezultate u rasponu od 1400-1300 bodova, čineći da originalna razlika od 1% u rezultatima testa izgleda izuzetno značajno u ovoj prezentaciji.

U stvarnim rezultatima bodovanja modela, Grok3 je samo 1-2% ispred DeepSeek R1 i GPT-4.0, što odgovara iskustvima mnogih korisnika u praktičnim testovima koji nisu pronašli "primjetnu razliku". Grok3 nadmašuje svoje nasljednike samo za 1%-2%.

Iako je Grok3 postigao viši rezultat od svih trenutno javno testiranih modela, mnogi to ne shvataju ozbiljno: uostalom, xAI je prethodno bio kritikovan zbog "manipulacije rezultatima" u eri Grok2. Kako je rang lista kažnjavala stil dužine odgovora, rezultati su se znatno smanjili, što je navelo insajdere iz industrije da često kritikuju fenomen "visokih rezultata, ali niskih sposobnosti".

Bilo da se radi o "manipulaciji" rang-lista ili dizajnerskim trikovima u ilustracijama, oni otkrivaju xAI i Muskovu opsesiju idejom "vođenja u grupi" u mogućnostima modela. Musk je platio visoku cijenu za ove marže: tokom lansiranja, pohvalio se korištenjem 200.000 H100 GPU-ova (tvrdeći da je koristio "preko 100.000" tokom prijenosa uživo) i postizanjem ukupnog vremena obuke od 200 miliona sati. To je neke navelo da vjeruju da to predstavlja još jednu značajnu prednost za GPU industriju i da smatraju utjecaj DeepSeeka na sektor "glupim". Posebno, neki vjeruju da će sama računarska snaga biti budućnost obuke modela.

Međutim, neki korisnici interneta su uporedili potrošnju 2000 H800 GPU-ova tokom dva mjeseca za proizvodnju DeepSeek V3, izračunavši da je stvarna potrošnja energije za trening Grok3 263 puta veća od one kod V3. Razlika između DeepSeek V3, koji je osvojio 1402 boda, i Grok3 je nešto manja od 100 bodova. Nakon objavljivanja ovih podataka, mnogi su brzo shvatili da se iza Grok3 titule "najjačeg na svijetu" krije jasan efekat marginalne korisnosti - logika većih modela koji generišu jače performanse počela je pokazivati smanjene prinose.

Čak i sa "visokim rezultatom, ali niskom sposobnošću", Grok2 je imao ogromne količine visokokvalitetnih podataka prve strane sa X (Twitter) platforme kako bi podržao korištenje. Međutim, tokom obuke Grok3, xAI je prirodno naišao na "plafon" sa kojim se OpenAI trenutno suočava - nedostatak premium podataka za obuku brzo otkriva marginalnu korisnost mogućnosti modela.

Programeri Grok3 i Musk su vjerovatno prvi koji će duboko razumjeti i identificirati ove činjenice, zbog čega Musk kontinuirano spominje na društvenim mrežama da je verzija koju korisnici trenutno koriste "još uvijek samo beta" i da će "puna verzija biti objavljena u narednim mjesecima". Musk je preuzeo ulogu menadžera proizvoda Grok3, predlažući korisnicima da daju povratne informacije o raznim problemima s kojima se susreću u odjeljku za komentare. On bi mogao biti najpraćeniji menadžer proizvoda na Zemlji.

Ipak, u roku od jednog dana, performanse Grok3-a nesumnjivo su izazvale uzbunu kod onih koji se nadaju da će se osloniti na "masivnu računarsku snagu" za treniranje jačih velikih modela: na osnovu javno dostupnih informacija Microsofta, OpenAI-jev GPT-4 ima veličinu parametara od 1,8 biliona parametara, što je preko deset puta više od GPT-3. Glasine sugerišu da bi veličina parametra GPT-4.5 mogla biti i veća.

Kako veličine parametara modela rastu, troškovi obuke također vrtoglavo rastu. S prisustvom Grok3, konkurenti poput GPT-4.5 i drugih koji žele nastaviti "trošiti novac" kako bi postigli bolje performanse modela kroz veličinu parametara moraju uzeti u obzir plafon koji je sada jasno na vidiku i razmisliti o tome kako ga prevazići. U ovom trenutku, Ilya Sutskever, bivši glavni naučnik u OpenAI-u, ranije je prošlog decembra izjavio: "Prethodna obuka s kojom smo upoznati će doći kraju", što se ponovo pojavilo u diskusijama, podstičući napore da se pronađe pravi put za obuku velikih modela.

Iljino gledište je uzbunilo industriju. On je tačno predvidio skoru iscrpljenost dostupnih novih podataka, što će dovesti do situacije u kojoj se performanse ne mogu nastaviti poboljšavati putem prikupljanja podataka, upoređujući to sa iscrpljivanjem fosilnih goriva. Naznačio je da je "poput nafte, sadržaj koji generiraju ljudi na internetu ograničen resurs". Prema Sutskeverovim predviđanjima, sljedeća generacija modela, nakon prethodne obuke, posjedovat će "istinsku autonomiju" i sposobnosti rasuđivanja "slične ljudskom mozgu".

Za razliku od današnjih prethodno obučenih modela koji se prvenstveno oslanjaju na usklađivanje sadržaja (na osnovu prethodno naučenog sadržaja modela), budući AI sistemi će moći učiti i uspostavljati metodologije za rješavanje problema na način sličan "razmišljanju" ljudskog mozga. Čovjek može postići fundamentalnu vještinu u nekoj oblasti samo sa osnovnom stručnom literaturom, dok veliki AI model zahtijeva milione podataka da bi postigao samo najosnovniju efikasnost na početnom nivou. Čak i kada se formulacija malo promijeni, ova fundamentalna pitanja možda neće biti ispravno shvaćena, što ilustruje da model nije istinski poboljšan u inteligenciji: osnovna, ali nerješiva pitanja spomenuta na početku članka predstavljaju jasan primjer ovog fenomena.

Zaključak

Međutim, osim upotrebe grube sile, ako Grok3 zaista uspije otkriti industriji da se "prethodno obučeni modeli bliže svom kraju", to bi imalo značajne implikacije za ovu oblast.

Možda ćemo, nakon što se frenezija oko Grok3 postepeno smiri, svjedočiti više slučajeva poput Fei-Fei Lijevog primjera "podešavanja visokoperformansnih modela na određenom skupu podataka za samo 50 dolara", što će u konačnici otkriti pravi put do AGI-ja.