Budapest
2024 november 15., péntek
image

Középszintű érettségin átlagon felül teljesít a ChatGPT, lazán megvan a négyese

Ma már szinte senkinek sem kell bemutatni az Open AI által kifejlesztett és hirtelen elképesztő sikereket elérő ChatGPT nevű chatbotot. Az alkalmazást kipróbálták már sikerrel egyetemi vizsgákon, a beadandó dolgozatok megírására világszerte egyre ügyesebben használják a diákok, ez ellen kétségbeesve küzdenek a tanárok, van olyan állam, ahol betiltották az alkalmazását, van olyan egyetemi kurzus, ahol kötelezően előírják használatát.

Nem az MI, hanem mi

Az alkalmazás, mint ahogy a többi hasonló mesterséges intelligencia (MI) alapú alkalmazás is, globális tesztszakaszban van, most tanuljuk mire jó, mire nem. Az biztos, hogy a ChatGPT hatékony felhasználásához okosan kell tudni kérdezni, ügyesen kell tudni rávezetni az alkalmazást a helyes válaszokra. Így, anélkül, hogy újabb nagy igazságot szeretnénk mi is állítani ebben a témában, csak annyit jegyeznénk meg, hogy a mi kis érettégi tesztünkben sem csak az MI vizsgázott, hanem valószínűleg mi magunk is, ugyanis azzal, ahogy feltettük (vagy éppen nem tudtuk feltenni) a kérdéseket, igencsak befolyásoltuk a végeredményt.

Ami így is magáért beszél: a tavaly 2022. május 2-án minden végzős diák elé került

Magyar nyelv és irodalom középszintű írásbeli vizsgán a ChatGPT 66 százalékos eredményt ért el, a másnapi középszintű matematikateszten pedig 63 százalékot.

Azaz, a hivatalos „átszámítás” szerint, iskolai jegyekben kifejezve mindkét tantárgyból négyest kapott a robot.

Ezek az eredmények egyébként jobbak, mint a humanoid diákok tavalyi átlageredményei: az Oktatási Hivatal adata szerint a magyarból az országos átlag 65,43 százalék volt a 2022-es vizsgán, matematikából pedig 55,28 százalék. Azaz a ChatGPT magyarból épphogy jobb teljesítményt nyújtott, mint a magyar diákok átlaga, matematikából viszont jelentősen (8 százalékponttal) jobb eredményt ért el.

Kérdezni tudni kell

A tesztet úgy végeztük el, hogy pontosan ugyanazokat a kérdéseket tettük fel a ChatGPT-nek, mint ami a tavalyi – az OH honlapján hozzáférhető – feladatlapokon volt. (Megpróbáltuk először a megfelelő url-eket megmutatni a programnak, körülbelül, hogy „itt a teszt, olvasd el, oldd meg az abban található feladatokat”, de ezt így nem tudta értelmezni az MI.)

A kérdéseket sokszor nagyon egyszerűen (a jó öreg másolás-beillesztés módszerrel) be tudtuk adni a robotnak. Ám voltak olyan kérdések is, amiket ábrák, grafikonok, táblázatok alapján kellett megoldani, ezeket már nehezebb volt „lefordítani” ChatGPT-nyelvre, nem is mindig sikerült, ami sok pont elvesztésével járt – és ez bizony akár a mi hibánk is lehetett.

Matematikánál a szöveges feladatoknál egyszerű dolgunk volt e tekintetben, kicsit nehezített pálya volt viszont a hatványt, gyököt, logaritmust tartalmazó egyenletek lefordítása (de megkérdeztük magától a robottól, hogyan kell, ezután már megoldottuk), és volt olyan ábrára, geometriai alakzatra vonatkozó feladat is, amit sehogyan nem sikerült beadnunk a megfelelő módon. (Elképzelhető, hogy képfeldolgozásban már tart ott a technológia, ami lehetővé tenné ezeknek a feladatoknak is a betáplálását, csak mi nem tudtuk, hogyan kell. Mint mondtuk, ember-gép közös munkájáról van itt szó.)

Magyarból a „könnyebb” rész volt nehezebb

A magyar írásbeli két részből áll. Az első részben egy adott szöveg, jelen estben a Magyar szókincstár előszavának részlete alapján kellett különböző kérdésekre válaszolni. A teszt ezzel méri a vizsgázók szövegértési kompetenciáit. Első dolgunk tehát az volt, hogy a megadott szöveget elolvastassuk a robottal. Ez egyszerű másolással nem ment, túl hosszú ehhez a szöveg, de Google-dokumentumot gyártva, és azt megosztva a géppel viszonylag gyorsan megoldódott a probléma.

A gép tehát elolvasta a szöveget. Érkeztek is villámgyorsan a válaszok az olyasmi kérdésekre, hogy például a megadott szöveg alapján nevezzen meg három dolgot, amit a Magyar szókincstár tartalmaz, vagy hogy mitől újdonság ez a szótár, stb.

Az első pontvesztések a 6. feladatnál jöttek, ahol bizonyos információk alapján kellett megtalálni az ahhoz kapcsolódó egyéb tudnivalókat. (Például egy szótár megjelenési éve alapján a szótár címét, szerkesztőjét stb.) Ez alapvető szövegértelmezéssel nem igen okoz semelyik humanoid diáknak nehézséget, a robot viszont nem értette a feladatot, és elkezdett kamuválaszokat adni. Próbáltuk rávezetni, hogy a megadott szöveg alapján keresse ki az információkat – teljes kudarc. Hatból nulla pont. Ugyanígy, a hetes feladatot sem tudta értelmezni, amikor egy-egy példát kellett írni ellentétes jelentésű szavakra vagy frazeológiai egységekre stb. Hatból itt is hat pontot vesztett.

Volt még egy kisebb, de érthetőbb táblázatos feladat, ahol ötvenszázalékos teljesítményt értünk el, és máris jöhetett az érvelés. (Itt választhattak a diákok, hogy vagy érvelnek, vagy hozzászólást írnak egy kirándulással kapcsolatos problémáról – mi választottuk ki a robotnak az érvelést.) A konkrét feladat az volt, hogy a megadott – memoriterekről írt – szakmai szöveg megállapításaira utalva érveljen a vizsgázó az iskolai memoriterek szerepéről, hasznáról a digitális korban. 120-200 szó terjedelemben, 3-5 érv felhasználásával.

A ChatGPT ezt a dolgozatot írta meg pillanatok alatt:

Megkértünk egy középiskolai magyartanárt, hogy értékelje ezt az érvelő fogalmazást úgy, mintha egy diákja írta volna. Ő úgy látja, hogy egyrészt a robot érvelésből hiányzik két fontos szempont, továbbá az írás nem is utal a megadott szövegre. Ráadásul nincs benne semmilyen személyes példa sem. Ennek ellenére nagyjából elfogadhatónak tartja az írást: „max. 8 pont, bár egyet vonnék még a szerkezetből is” – írta a pedagógus.

A teszt első részére kapható, összesen 40 pont helyett mindössze 30-at gyűjtöttünk.

A teszt második része a klasszikus műelemzésről szólt, itt szintén választania kellet a vizsgázóknak több lehetőség közül. Mi a robotunknak Janus Pannonius: Búcsú Váradtól és Juhász Gyula: Várad című versének 400 szavas összehasonlító elemzését adtuk ki. Ez azért is volt könnyű számunkra, kérdésfeltevők számára, mert a két verset a robot gyorsan megtalálta a neten, nem kellett külön beolvastatni.

Pár pillanat alatt jött is a műelemzés. A fogalmazást így értékelte a segítségünkre siető magyartanár:

„Ez nagyjából rendben volt, de állításait nem támasztja alá idézetekkel, és teljesen hiányoznak a poétikai eszközök. A vers szerkezetét térképhez hasonlítani tetszetős, de szerintem hibás. („A költemény szerkezete a város térképéhez hasonlít, amelyen a különböző helyszínek és emlékek szerepelnek” – írta dolgozatában a robotnebuló – a szerk.) Vannak benne nyelvhelyességi hibák is, pl. „költeményében a városról búcsúzik”. Következetesen az alany szót használja a lírai alany vagy a lírai én helyett. A tartalom körülbelül 18 pont, a szerkezet 4, a stílus körülbelül 6 pont, de összesen maximum 30 pont.”

Itt normál esetben a diákok a helyesírásra és az írásképre is kaphatnak maximum nyolc plusz két pontot, önhatalmúlag e tízből mi hatot ítéltünk meg a ChatGPT-nek, így összesen erre a feladatra az 50-ből 36 pontot gyűjtött.

Az első rész 30 pontja és a második rész 36 pontja összesen 66 pontot eredményez, ami egy közepes négyes érdemjegynek felel meg.

A matematika a robotnak nem mumus

Többször írtunk már arról, hogy a matematikától félnek a leginkább a diákok, hagyományosan ezt sikerül a legrosszabb eredménnyel megírni az érettségiken is, azaz a matek a fő mumustantárgy. Ennek az okait és a lehetséges megoldásait is számos cikkben taglaltuk.

Kíváncsian vártuk hát, mit kezd a középszintű érettségi teszttel a robotunk (szintén a tavaly májusi tesztet vettük alapul). Az első pillanatban lenyűgözve tápláltuk be a kérdéseket, mert rendszerint már akkor kész volt a válaszokkal, amikorra bemásoltuk a következő kérdést. A kiértékelésnél viszont azt láttuk, hogy a gyors válaszokba be-becsúszik néhány olyan bosszantó hiba, ami, azt gondoltuk, csak az embereknél fordul elő.

Rögtön az első, egyszerű halmazos kérdést, miután pontosan értelmezte, felírta a megoldás menetét, majd valamiért elrontotta, nem is értjük, miért. Nagyon érdekesen hibázott a 3. kérdésben is, ahol az volt a kérdés „Melyik az a szám, amely 10-zel kisebb az ellentettjénél?”

Meghatározta, mi az ellentett fogalma, jól felírta az egyenletet, ki is számolta lényegében azt, de egy előjelnél végül hibázott, így rossz eredményt adott. És még több ilyen apró, de a matekban végzetesnek számító hibát vétett a robotunk, így sok pontot vesztett az első, könnyebb részben. Mi, kérdésfeltevők is hibáztunk persze itt is valószínűleg, amikor a térgeometriai és kördiagrammos feladatokat nem tudtuk számára értelmezhető formában betáplálni.

Villámgyorsan eljutottunk az első 12 feladat végéig, de a sok apró hiba és a két – a ChatGPT számára – rossz kérdésfeltevés miatt a 30-ből csak 16 pontot gyűjtöttünk.

A második, nehezebb rész első három feladata – egy egyenletmegoldás, egy egyszerű statisztikai és egy szokásos „szöveges” feladat – csont nélkül és nagyon gyorsan ment, itt pontot sem vesztettünk.

Az utolsó három, komolyabbnak számító feladat közül kettőt kellett megoldani a vizsgázóknak, itt megint mi választottuk ki – a kérdésfeltevés megoldhatósága alapján – a szöveges algebrai és a logikai-halmazos példát. (A térgeometriai ábrára épülő feladatot nem tudtuk volna betáplálni.)

Előbbit szintén csont nélkül, szépen levezetve megoldotta, utóbbit viszont csak félig, mert egy részhez a Venn-diagramm ábrázolással kapcsolatban kellett volna kommunikálnunk (ez azonban nem nagyon ment), így ott is vesztettünk nyolc pontot.

Összességében a második rész 70 pontjából 47-et gyűjtöttünk be, így az előző rész 16 pontjával együtt 63 pontot sikerült összematekoznunk. Ez jóval felülmúlja a diákok átlageredményét, és szintén négyes érdemjegyet eredményez.

Mi ebből a tanulság? Egyrészt, hogy a ChatGPT „iskolai” teljesítménye az embertől (a kérdések feltevőjétől) is függ, továbbá, hogy a robot nem feltétlenül hibátlan az egyszerű, gyorsan megoldható feladatokban, cserébe a nehezebb példákban viszont jó esély van, hogy ne hibázzon.

Magyar négyes, matematika négyes – azért sok vizsgázó örülne májusban egy ilyen kezdésnek, nem?