Svijet 09.09.2025.

Vjera u velike jezičke modele slične Bogu opada

ČITANJE: 6 minuta

Kada ljudi iz svijeta tehnologije pričaju o slabom napretku modela velikih jezika (LLM), često povlače analogiju sa pametnim telefonima. Rani dani OpenAI-jevog ChatGPT-a bili su revolucionarni kao i lansiranje Appleovog iPhonea 2007. godine. Ali napredak na granici umjetne inteligencije (AI) počeo je izgledati kao besmislene nadogradnje telefona, a ne kao pravi proboji. GPT-5, najnoviji model OpenAI-a, je tipičan primjer. Izazvao je još manje pažnje nego što se očekuje od iPhonea 17, najnovijeg Appleovog izdanja, koje bi trebalo biti predstavljeno 9. septembra.

Usporavanje tempa napretka na čelu generativne umjetne inteligencije jedan je od znakova da LLM-ovi ne opravdavaju svoju popularnost. Vjerovatno važniji pokazatelj je porast manjih, agilnijih alternativa, koje pronalaze podršku u korporativnom svijetu. Mnoge firme preferiraju modele po mjeri koje mogu prilagoditi svojim specifičnim potrebama. Ovi takozvani modeli malih jezika (SLM) su jeftiniji od univerzalnih LLM-ova, čija božanska inteligencija može izgledati suvišna. Kao što David Cox, šef istraživanja modela umjetne inteligencije u IBM-u, tehnološkoj kompaniji, kaže: „Vaš HR chatbot ne mora znati naprednu fiziku.“

Osim što ih je jednako lako pokretati na internim IT sistemima kompanije kao i putem provajdera cloud usluga, SLM-ovi mogu biti korisniji i za AI agente, koji obavljaju zadatke vezane za posao zajedno s ljudima ili umjesto njih. Manja veličina SLM-ova čini ih posebno pogodnim za AI u pametnim telefonima, automobilima koji se sami voze, robotima i drugim uređajima gdje su energetska efikasnost i brzina na prvom mjestu. Ako nastave postajati pouzdaniji, mogli bi potvrditi odluku Applea i drugih proizvođača uređaja da ne slijede stado ulažući milijarde u LLM-ove zasnovane na oblaku, prenosi The Economist.

Ne postoji precizna definicija šta čini male naspram velikih jezičkih modela. Razlika se svodi na broj parametara na kojima se obučavaju – tj. na količinu numeričkih postavki u mozgu modela koje mu pomažu da shvati podatke. LLM-ovi se protežu na stotine milijardi parametara. SLM-ovi se mogu obučavati na 40 milijardi ili manje, a u slučaju sitnih modela, na manje od milijardu.

Poboljšanja u obuci SLM-ova pomogla su im da sustignu mogućnosti LLM-ova. Male modele sve više “uče” veći, umjesto da moraju sami pretraživati ​​web da bi učili. Artificial Analysis, firma za mjerenje performansi, kaže da na raznim testovima, model sa 9 milijardi parametara pod nazivom Nvidia Nemotron Nano, koji je nedavno lansirao proizvođač AI čipova, nadmašuje Llama model koji je u aprilu objavio Meta, gigant društvenih medija, a koji je 40 puta veći (vidi grafikon). Sustizanje postaje rutina. “Manji modeli današnjice su mnogo sposobniji od većih modela prošle godine”, kaže Mohit Agrawal iz Counterpointa, firme za istraživanje tehnološkog tržišta.

Bolje performanse privukle su poslovne korisnike. Gartner, IT prognozer, kaže da su dobro poznati nedostaci u LLM-ovima, poput halucinacija, izazvali “zamor korisnika”. Umjesto toga, preduzeća žele specijalizovanije modele, fino podešene na podacima specifičnim za industriju. Ove godine se predviđa da će korporativna potražnja za njima rasti dvostruko brže nego za LLM-ovima, iako sa mnogo niže baze. Vremenom, Gartner očekuje da će više ovih specijalizovanih modela razvijati kompanije interno.

Još jedan razlog za rastuću popularnost SLM-ova je ekonomija. Kompanije su prešle sa pristupa “potroši koliko god treba”, koji se primjenjivao u ranim danima generativne vještačke inteligencije, na veći fokus na povrat investicije. Iako i dalje mogu koristiti LLM-ove za mnoge zadatke, mogu uštedjeti novac obavljajući diskretne, ponovljive poslove sa SLM-ovima. Kao što kaže jedan velikan rizičnog kapitala, možda će vam trebati Boeing 777 da letite od San Francisca do Pekinga, ali ne i od San Francisca do Los Angelesa. „Uzimanje najzahtjevnijih modela i njihova primjena na sve probleme nema smisla“, kaže on.

Da bi ilustrovao ekonomiju, gospodin Cox iz IBM-a ukazuje na proizvod koji je razvila njegova kompanija, pod nazivom Docling, a koji transformiše PDF dokumente, poput računa, u podatke koje je moguće pohraniti. Radi na „sićušnom“ modelu sa oko 250 miliona parametara. Naziva ga korisnim alatom, ali alatom koji ne bi bio isplativ kada bi se pokretao na LLM-u. Mali modeli mogu raditi i na jeftinijim varijantama čipova. Najmanji modeli mogu koristiti centralne procesorske jedinice (CPU), radne konje općeg računarstva, umjesto grafičkih procesorskih jedinica (GPU) poput onih koje su Nvidiju učinile najvrjednijom kompanijom na svijetu. Ovo bi mogla biti velika prednost: GPU-ovi, kaže gospodin Cox, su „prefinjeniji Ferrariji koji su uvijek u servisu“.

SLM-ovi mogu postati još atraktivniji kako preduzeća budu primjenjivala više AI agenata. Malo zapaženi rad objavljen u junu od strane Nvidia Researcha, istraživačkog odjela proizvođača čipova, hrabro navodi da su „mali, a ne veliki, jezički modeli budućnost agentske AI“. Napominje se da trenutno većinu agenata pokreću LLM-ovi, koje hostuju pružatelji usluga u oblaku. Ulaganja koja se ulijevaju u cloud infrastrukturu povezanu s AI sugeriraju da tržište pretpostavlja da će LLM-ovi ostati motori agentske AI. Rad osporava tu pretpostavku, tvrdeći da su SLM-ovi dovoljno moćni za rješavanje agentskih zadataka i ekonomičniji (na primjer, model sa 7 milijardi parametara može biti deset do 30 puta jeftiniji za korištenje od modela koji je do 25 puta veći). Navodi se da SLM-ovi mogu dovesti do pristupa „nalik Lego kockicama“ u izgradnji agenata, pri čemu firme koriste male, specijalizirane stručnjake, umjesto jedne monolitne LLM inteligencije.

Rad, koji postavlja pitanja o novcu koji se ulaže u agentsku infrastrukturu zasnovanu na oblaku, ne predstavlja Nvidijino strateško razmišljanje, kaže Kari Briski, viša izvršna direktorica Nvidije. Ona kaže da poslovni korisnici žele modele „svih oblika i veličina“. Najveći modeli su bolji u obavljanju najtežih poslova od malih. Štaviše, kaže ona, važno je nastaviti pomicati granice LLM-ova jer ih to čini boljim učiteljima SLM-ova.

Bez obzira na to hoće li SLM-ovi na kraju istisnuti LLM-ove ili ne, heterogenost je u porastu. Sveznajući LLM-ovi ostat će važni za potrošačke aplikacije poput OpenAI-jevog ChatGPT-a. Pa ipak, čak i OpenAI mijenja svoj fokus. GPT-5 ima interne modele različitih veličina i snaga, koje koristi zavisno o složenosti zadatka.

Kako SLM-ovi postaju vještiji, oni bi također mogli poboljšati reputaciju umjetne inteligencije na uređajima. Gospodin Agrawal iz Counterpointa očekuje da će Apple istaknuti potencijal manjih modela kao dio lansiranja smanjenog iPhonea u utorak. “Apple Intelligence”, proizvod umjetne inteligencije kompanije, koji koristi SLM-ove za obavljanje nekih zadataka na iPhoneu dok delegira teže poslove u oblak, mogao bi biti oblik onoga što dolazi, vjeruje on. “Nije slučaj da smo propustili priliku”, kaže on o Appleovim dosadašnjim razočaravajućim naporima u oblasti umjetne inteligencije. S obzirom na utjecaj firme, “uvijek se može ukrcati na sljedeći brod.”

Za sada se najviše pažnje posvećuje LLM-ovima. Iako su cloud giganti poput Microsofta i Googlea izgradili izuzetno male modele, uvjerenje da će se status quo održati pomoglo je u opravdavanju bogatstva koje troše na podatkovne centre za obuku i hostiranje najvećih modela. To bi moglo biti kratkovido. S obzirom na relativne prednosti SLM-ova, Appleov pristup “usporavanja” mogao bi se dugoročno pokazati opravdanim.

Oznake: The Economist