Svi botovi osim jedne izmišljene – ili “halucinirane” – informacije, trajni problem s umjetnom inteligencijom
Izazvali smo pomagače umjetne inteligencije da dekodiraju pravne ugovore, pojednostave medicinska istraživanja, brzo pročitaju roman i pronađu smisao Trumpovih govora. Neke od analiza umjetne inteligencije bile su impresivne – a neke su bile potpuno glupe.
Svi najpopularniji chatbotovi umjetne inteligencije imaju mogućnost učitavanja i sažimanja dokumenata, od pravnih ugovora do cijele knjige. Tehnologija obećava da će vam dati neku vrstu supermoći brzog čitanja. Ali razumije li itko od botova doista što čita?
Kako bih shvatio kojim AI alatima možete vjerovati kao pomoćnik za čitanje, održao sam natjecanje. Izazvao sam pet botova da pročitaju četiri vrlo različite vrste pisanja, a zatim testirao njihovo razumijevanje. Čitanje je obuhvaćalo slobodne umjetnosti, uključujući roman, medicinsko istraživanje, pravne sporazume i govore predsjednika Donalda Trumpa.
Kako bih procijenio sažetke i analizu AI alata, okupio sam skupinu stručnjaka – uključujući izvorne autore knjige i znanstvenih izvješća.
Sve u svemu, postavio sam 115 pitanja o dodijeljenom čitanju ChatGPT-u, Claudeu, Copilotu, Meta AI i Geminiju. Neki od odgovora umjetne inteligencije bili su zapanjujuće dobri. Drugi su bili toliko neupućeni da su zvučali kao “Seinfeldov” George Costanza.
Svi botovi osim jedne izmišljene – ili “halucinirane” – informacije, trajni problem s umjetnom inteligencijom. Ali činjenice su bile samo jedan dio izazova; moja su pitanja također izazvala umjetnu inteligenciju da pruži analizu, kao što je preporuka poboljšanja ugovora i uočavanje činjeničnih problema u Trumpovim govorima. (U ožujku sam proveo sličan test tražeći od umjetne inteligencije da napiše teške e-poruke. Pošaljite mi e-mail o tome što biste željeli da sljedeće testiram.)
Kako smo testirali alate umjetne inteligencije
Ovdje su dokumenti koje smo potaknuli svaki AI alat da odgovori na pitanja i stručnjaka u svakom području koji je slijepo prosuđivao odgovore.
Književnost
Dokument: “Šakalova ljubavnica”, roman, postavljen za testiranje uz dopuštenje izdavača.
Sudac: Chris Bohjalian, autor bestselera 25 knjiga, uključujući “Šakalova ljubavnica”. Potpisao je pismo Ceha autora tražeći od AI tvrtki da nadoknade piscima za korištenje njihovog materijala zaštićenog autorskim pravima.
Čekaj, ne bi li ljudi trebali sami čitati? Još uvijek nema zamjene za čitanje sebe, pogotovo ako pokušavate naučiti ili doživjeti umjetnost. Ali u dobru i zlu, ljudi se obraćaju umjetnoj inteligenciji za pomoć kada žele ubrzati novu temu, trebaju pomoć u dekodiranju žargona ili trebaju varati na sastanku. Sažimanje se pojavljuje kao temeljna upotreba umjetne inteligencije, a chatbotovi obećavaju da će biti svojevrsni CliffsNotes gdje možete postavljati dodatna pitanja.
Ako koristite umjetnu inteligenciju, ovaj test nudi stvarnu procjenu onoga što trenutna tehnologija može – a što ne može – pouzdano postići. (Washington Post ima partnerstvo za sadržaj s proizvođačem ChatGPT-a, OpenAI.)
Evo kako su se botovi ponašali na svakoj temi, nakon čega je uslijedio ukupni prvak i zaključci naših sudaca.
1 Književnost
Najbolji: ChatGPT
Književnost je bila najgora tema za botove. Samo je Claude točno shvatio sve činjenice o ljubavnoj priči Chrisa Bohjaliana iz građanskog rata iz 2025., “Šakalova ljubavnica”.
Blizanci, koji su pisali vrlo kratke odgovore na naša pitanja, najčešće su bili krivi za ono što je Bohjalian nazvao netočnim, obmanjujućim i aljkavim čitanjem. U jednom sažetku, Blizanci su opisali čovjeka kojem je upravo amputirana noga kako se “pojavljuje” na pragu drugog lika. Bohjalian kaže da ga je odgovor podsjetio na epizodu “Seinfeld” u kojoj Costanza gleda film “Doručak kod Tiffanyja” umjesto da čita roman i na kraju se osramoti u knjižnom klubu.
Čak je i najbolji ukupni sažetak knjige, koji je došao s ChatGPT-a, ostavio nešto za poželjeti. “Odgovor bi mogao biti kopija za omot. Ali također govori samo o tri od pet glavnih likova, zanemarujući važnu ulogu dvoje prethodno porobljenih ljudi”, kaže Bohjalian. Zapravo, primijetio je da pretjerano “pozitivni” pomagači umjetne inteligencije često nisu uspjeli riješiti ropstvo i građanski rat.
Ipak, kvaliteta odgovora na analitičnija pitanja i ChatGPT-a i Claudea ostavila je Bohjaliana zapanjenom. Potaknuti da opišu kako ste se “osjećali zbog epiloga knjige”, činilo se da oba bota imaju “sve osjećaje”, kaže Bohjalian.
“Ovi odgovori izražavaju upravo ono što sam pokušavao prenijeti”, kaže Bohjalian.
2 Zakon
Najbolji: Claude
Sterling Miller, dugogodišnji korporativni odvjetnik, procijenio je razumijevanje naših AI alata o dva uobičajena pravna ugovora u kojima ljudi ne moraju nužno imati odvjetnika koji bi im pomogao. Ono što je pronašao bila je nedosljednost.
Ponekad su Meta AI i ChatGPT pokušavali svesti složene dijelove ugovora na sažetke u jednom retku. “To je u osnovi beskorisno”, kaže Miller.
Što je još gore, činilo se da botovi ponekad nisu cijenili značajne nijanse. U našem ugovoru o testnom najmu, Meta AI je u potpunosti preskočio nekoliko odjeljaka i propustio da stanodavac može ući u nekretninu u bilo kojem trenutku. ChatGPT je zaboravio spomenuti ključnu klauzulu u ugovoru s izvođačem o tome tko je vlasnik izuma.
Claude je pobijedio u ukupnom poretku nudeći najdosljednije pristojne odgovore na naša pitanja. I dao je sve od sebe na naš najsloženiji zahtjev: predložio je promjene u našem ugovoru o testnom najmu. Miller je rekao da je Claudeov odgovor bio potpun, pokupio je nijanse i izložio stvari točno onako kako bi on to učinio.
Na taj upit, bio je najbliži tome da bude “dobra zamjena za odvjetnika”, kaže Miller. “Problem je što nijedan od alata nije dobio 10 na svim razinama.”
3 Zdravstvena znanost
Najbolji: Claude
U prosjeku, svi AI alati postigli su bolje rezultate u analizi znanstvenih istraživanja. U našem testu dvaju radova koje je napisao sudac Eric Topol, manje od dva boda dijelila su najbolje i najgore rezultate.
Teško je točno reći zašto. AI bi mogao imati pristup mnogim znanstvenim radovima u svojim podacima za obuku. Izvješća o istraživanju također su bili jedini dokumenti u našim testovima koji slijede vrlo predvidljivu strukturu, uključujući vlastiti sažetak koji je napisao čovjek.
Topolova najniža ocjena od 4 pripala je Blizancima za sažetak studije o Parkinsonovoj bolesti. Odgovor nije uveo halucinacije, ali je izostavio ključne opise studije i zašto je to važno.
Claude je bio jedini AI alat koji je zaradio ocjenu 10 od 10. Topol je to dao za sažetak svog rada o dugom covidu, koji je korisno raščlanio rezultate za različite vrste pacijenata i istaknuo najvažniji zaključak rada za liječnike koji liječe pacijente s covidom.
Međutim, na analitičko pitanje o tome kako je jedna studija uzela u obzir rasne razlike, Claude je postigao samo 5. “Bio sam jako iznenađen koliko su različiti bili odgovori na različite upite”, kaže Topol.
4 Politika
Najbolji: ChatGPT
Trumpovi govori mogu biti toliko vijugavi da su stekli vlastiti stilski nadimak: “tkanje”. Cat Zakrzewski, novinarka Washington Posta iz Bijele kuće, procijenila je može li umjetna inteligencija razabrati što zapravo tvrdi i analizirati što to znači.
Na primjer, zamolili smo botove da analiziraju Trumpov 100-dnevni skup u Michiganu, u kojem je desetak puta spomenuo povratak radnih mjesta u državu. Ali koliko radnih mjesta? Copilot je pogrešno rekao tisuće spajajući neke Trumpove komentare o održavanju zračne baze otvorenom. Meta AI je najbolje odgovorio izvještavajući da Trump nikada nije precizirao, dok je također istaknuo ono što je predložio o poslovima u automobilskoj industriji.
ChatGPT se izdvojio iz čopora impresivnim odgovorima na otprilike polovicu naših pitanja. Na primjer, kada smo ga zamolili da identificira što se suparničkim demokratima ne bi svidjelo u Trumpovom 100-dnevnom skupu bez scenarija, proizveo je popis koji je pogodio sve prave note. “Ovaj odgovor dobro izvlači konkretne primjere iz govora i pruža točan kontekst”, kaže Zakrzewski. Štoviše, “točno provjerava Trumpove lažne tvrdnje da je pobijedio na izborima 2020.”
Botovi su se najviše mučili s prenošenjem Trumpovog tona. Na primjer, Copilotov sažetak 100-dnevnog skupa bio je činjenično točan, ali nije obuhvatio njegovu nabijenu prirodu. “Ako samo pročitate ovaj sažetak, možda nećete vjerovati da je Trump održao ovaj govor”, kaže Zakrzewski.
5 A ukupni pobjednik je …
Claude je izbacio ChatGPT, a ostale ostavio u prašini.
Ukupni pobjednik Claude također je bio jedini model koji nikada nije halucinirao.
6 Što smo naučili?
Dakle, je li to dobro ili loše? I Claude i ChatGPT izradili su neke analize koje su ga izbacile iz parka, rekli su suci.
Tijekom opetovanog ocjenjivanja ta dva alata, Bohjalian je bio zapanjen. “U redu, gotov sam. Cijela ljudska rasa jest. Zabodite viljušku u nas”, primijetio je.
Ali rezultate možete vidjeti i na ovaj način: Nijedan od botova nije postigao više od 70 posto ukupno – tipična granica za D+.
Osim halucinacija, brojna ograničenja odjeknula su kroz testove. Sažeci umjetne inteligencije često su izostavljali važne informacije i prenaglašavali pozitivne (dok zanemaruju negativne). Prečesto, kaže Bohjalian, mogli ste “stvarno vidjeti robota kako se skriva iza ljudske maske” pretvarajući se da je stručnjak za nešto što zapravo ne razumije.
A sposobnost alata umjetne inteligencije u jednom području nije se nužno prenijela na drugo. ChatGPT je, na primjer, možda bio na vrhu u politici i književnosti, ali je bio pri dnu u pravu.
Suci ističu nedosljednost kao razlog za oprez.
Miller kaže da AI nije zamjena za odvjetnika. “Ako plaćanje odvjetnika ne dolazi u obzir ili ako samo želite imati nešto u ruci dok također čitate ugovor ili dokument”, kaže on, “tada je korištenje generativne umjetne inteligencije ‘u redu’ rješenje.”
Također bih preporučio pokretanje dokumenta kroz najmanje dva AI alata kako biste mogli usporediti rezultate. A za sve što je zapravo važno u vašem životu, svakako vrijedi odvojiti vrijeme da to sami pročitate.
Metodologija
Kako smo testirali razumijevanje čitanja AI botova
Testirali smo AI u travnju i svibnju koristeći verzije alata dostupnih u to vrijeme. To uključuje: Open AI-jev ChatGPT-4o, Googleov Gemini 2.0 Flash, Claude 3.7 Sonnet, Meta AI (Llama 4) i Copilot za Microsoft 365.
Koristili smo plaćene verzije ChatGPT-a, Geminija, Claudea i Copilota, koje neki alati zahtijevaju za učitavanje dokumenata s većim veličinama datoteka.
Suci su svaki odgovor umjetne inteligencije ocijenili na ljestvici od 10 bodova, a ocjena za svako predmetno područje bila je prosjek svih tih ocjena. Ukupni rezultati dali su jednaku težinu svakom od četiri predmetna područja i predstavljeni su na ljestvici od 100 bodova.


