Persze létezik a közömbös, „ez is csak egy új hűha – majd elmúlik” álláspont is, bár az kevésbé érdekes. A Mesterséges Intelligenciáról (MI/AI) vallott véleményünk nagyban meghatározza, hogy AI-szkeptikus vagy AI-paranoid csoport eszmecseréjét követjük nyomon, továbbá, hogy mennyire vagyunk nyitottak a technológiai fejlődés újabb fejezeteire. 

Mivel a nagy nyelvi modellek (LLMs) a ChatGPT 2022 novemberi debütálásával hirtelen részévé váltak életünknek, talán a legfontosabb annak megértése, hogy melyik modell mire használható, mit várhatunk ettől a technológiától. Persze, ez nem nagy újdonság, nemcsak a virtuális tér eszközei, hanem a fizikai valóság objektumai is előre meghatározott célokat szolgálnak, azok multifunkciós alkalmazása gyakran problémákhoz vezet. Példának okáért, nem használjuk a bevásárlókocsit babakocsiként, habár kétségtelenül gurul és a gyerek is elfér benne. A nagy nyelvi modelleket sem kell másként használni, mint amire valók és akkor mind a tökéletlenség-kritika, mind az esetleges AI-apokalipszistől való félelmek nyugtathatók.

Másfél évvel ezelőtt a ChatGPT megjelent a széles publikum számára. Nem sokkal később megjelentek felháborodott hangok arról hogy az AI téves vagy félrevezető információkat, gyakran „hallucinált” forgatókönyveket nyújt. Egy két hozzáértő azt is hangsúlyozta, hogy ezek a programok nagy nyelvi modellek, és nem keresőmotorok, ennélfogva információ hiányában kitalálják a választ a tökéletes szöveg biztosítása érdekében – amely nem egyezik a hibátlan és szakszerű szöveg jelentésével. Természetesen az internettel összeköttetésben végzik feladatuk, keresnek és találnak, azért – talán szerencsére, jelenleg – messze nem helyettesítik az emberi intelligenciát. Az újabb generációk – szemben korábbi verzióikkal – kifejezetten hasznosak kutatási segédként is, hiszen nem zárt univerzumként, hanem az általunk is elérhető internetet használva válaszolnak a prompt-okra. Az is fontos, hogy mely AI-modellt mire használhatjuk, vannak kifejezetten szövegszerkesztési segédnek tervezett programok és vannak vizuális termékek előállítására létrehozott modellek, ahogy az sem utolsó szempont, hogy az ingyenes változatot vagy előfizetéses csomag-opciót hívunk segítségünkre. Nyilvánvalóan, a nem fizetős verzió limitált lesz, vagy zárt univerzumként (pl. az OpenAI GPT-3.5 csak 2022 január előtti információkból táplálkozik) működik vagy adott számú prompt megválaszolására hajlandó (pl. Bing CoPilot naponta 4 promptra generál választ).

Minden limit és hiba mellett felmerül a kérdés, hogy vajon mennyire okos a mesterséges intelligencia és ennek fényében, mennyire kell(ene) tőle tartanunk? Az Amerikai Egyesült Államokban (USA) is keresik ezekre a kérdésekre a válaszokat, főleg, mert naponta látnak napvilágot újabb és újabb modellek, okozva némi fejtörést az újságírók és digitális tartalomszerkesztésből, grafikai elemek előállításából élők számára, ugyanakkor a hatalmas amerikai piactéren látják a programok előnyeit, az innováció gazdasági hatásait, és az egyéni hatékonyság növeléséhez kapcsolódó potenciáljait is.  Ebben a AI-lázban tette fel az „okosabb-e a mesterséges intelligencia egy macskánál” kérdést az USA Kongresszusa Yann LeCun-nak – a számítástechnika Nobel-díjának tartott Turing-díj nyertesének, a META fő AI tudósának 2023 szeptemberében. A francia-amerikai számítástechnikus határozott „nemmel” válaszolt az előbbi kérdésre szakértői tanúvallomásában. LeCun kifejtette, hogy „Egy macska képes emlékezni, megérti a fizikai világot, összetett cselekvéseket tud tervezni, és bizonyos szinten képes a logikus gondolkodásra – valójában sokkal jobban, mint a legnagyobb nyelvi modellek.” Álláspontját arra alapozta, hogy az intelligencia elsősorban a fizikai világban gyökerezik. Ha egy macskát vagy egy másik állatot nézünk, láthatjuk, hogy magas szinten gondolkodnak, céltudatosan cselekszenek. A jelenlegi nyelvi modellek nem tudják ezt megtenni. Általánosabban véve a nyelvi modellek szöveges adatokon keresztül tanulnak, míg az élőlények elsősorban a világon keresztül teszik azt. A nyelv az élőlények számára csak később jön; az érzékszervi bemenetek képezik az élőlények intelligenciánk alapját. Az intelligencia „magja” a nyelv előtti észlelés. Pusztán szövegeken keresztüli tanulással nem ragadható meg minden.

Ez alapvető korlátokat jelent a nyelvi modellek fejlesztésében, abban, hogy a nyelvi modellek képesek legyenek összetett célokat elérni a valós világban. Ez azt is jelenti, hogy a tudásuk „könyvtanulásra” korlátozódna, vagyis a jelenlegi elérhető információ összegzésére – amolyan zsebben eltehető könyvtár-hozzáférés lenne a világ online elérhető összes anyagához és annak adat-szinkronizációjához. Gyakorlatilag kizárólag az információhalmazra alapozni döntéseket nem a legbölcsebb, hiszen a kimenetet nagymértékben meghatározza a rendelkezésre álló adatok minősége. Az emberi intelligencia a rendelkezésre álló szöveges adatokon kívül rengeteg más adatot figyelembe vesz a döntéshozatali folyamatok során. Olyan ez, mintha az orvosok kizárólag tankönyvi példák összegzése mentén végeznék a diagnózist az emberek tanulmányozása nélkül. Eredményességük lényegesen törékenyebb és kiszolgáltatottabb lenne, mint azon medikusoké akik a rendelkezésre álló információkat ötvözik az észlelés során szerzett tapasztalatokkal. 

Az intelligencia összetettsége és fizikai világban gyökerezése mellett magában foglalja az új fogalmak megértését és a generalizálást is az adatok alapján. Ezt a nyelvi modellek ezt nem csinálják olyan jól, mint az emberek. Például a korai generációs nyelvi modellek képesek voltak egyjegyű és kétjegyű számok szorzására, de a három- vagy többjegyű számok szorzásánál elbuktak. Ez a szakértők szerint arra utalt, hogy valójában nem tanulták meg a szorzás alapvető fogalmát a megfelelő absztrakciós szinten. 

LeCunhoz hasonlóan sok AI-szakértő úgy véli, hogy a mesterséges általános intelligencia (AGI) nem pusztán a nyelvi modellek fejlesztésével érhető el. Ahogy fentebb összegeztem, a nyelvi modelleket írott szövegekből – az internetről, könyvekből és hasonló adatokból – származó adatokon képezik ki. Az egyszerű logika azt sugallja, hogy bár hihetetlen mennyiséget tanulhatunk ilyen forrásokból, sok minden van, amit a nyelvi modellek nem tanulhatnak meg. Például, a nyelvi modell össze tudja foglalni írásban, hogy a rendelkezésre álló információk alapján hogyan kell kávét készíteni, de nem tud bemenni a boltba az összetevőkért majd a konyhába, hogy elkészítse azt további előzetes tudás és közreműködés nélkül. Erről lásd még Steve Wozniak, az Apple társalapítója elhíresült kávé tesztjét. Wozniak azt mondta, hogy akkor hinne az AI eljövetelében, ha egy robot be tudna menni egy idegen házba, és finom kávét tudna főzni az ismeretlen helyen. Meglepő módon, a kávéfőzés egy összetett feladat, amely magában foglalja a környezet felismerését, a szükséges eszközök és összetevők megtalálását, valamint a feladat végrehajtását egy sor lépésben. A kávéfőzéshez szükséges képességek birtoklása azt sugallja, hogy az AI képes lenne más összetett feladatokat is elvégezni, és alkalmazkodni tudna új helyzetekhez.

Amennyiben a felfejlesztett (upscaled) nyelvi modellek nem érik el a tudósok kreativitásának szintjét, akkor szkepticizmussal kellene fogadnunk azon ígéreteket, hogy munkánkat hamarosan mesterséges intelligenciák fogják végezni. Ez persze nem jelenti azt, hogy az AGI nem fog fejlődni, vagy egyenesen meghaladni az emberi intelligenciát – vagy helyettesíteni néhány állást a folyamat során. LeCun jóslata, hogy több mint 10 év múlva, talán 20 éven belül meghaladhatja a gépi intelligencia az emberét. 

Addig is, a nyelvi modell-szkeptikus – egyébként pozitív – világképben a jelenlegi mesterséges intelligenciák inkább az embert kiegészítő eszközök lesznek, amelyek produktívabbá teszik tevékenységeinket, nem pedig szuperintelligens ügynökök, akik a gépek világuralmát készítik elő. Habár a Mátrix kétségtelenül sikerfilm volt, talán elég ha csupán kikapcsolódást szolgáló termékként tekintünk rá és nem esünk a technikailag egyelőre megalapozatlan AI-paranoid érvek félelmének fogságába. Nem egy kék és egy piros pirula között kell választanunk, és nem kell olyan ajtón belépnünk, amelyből aztán nincs kiút.