Már a 60-as években is léteztek olyan kutatások, amelyek számítógépes feldolgozás céljára gyűjtöttek össze hatalmas mennyiségű természetes nyelvi szöveget. Később ilyen módszerrel már szótárakat is létrehoztak azzal a megfontolással, hogy a nyelvről szerzett tudást ne elméleti feltételezésekből kiindulva, hanem a korpuszok statisztikai, számítógépes vizsgálatára alapozva is gyarapítsák. Ezzel a módszerrel olyan rejtett mintázatokra bukkanhatunk, amelyek a korábbi, spekulatív modelleket vizsgálva láthatatlanok maradtak – mondta a Tudás.hu-nak adott interjúban Palkó Gábor, az ELTE Digitális Bölcsészet Tanszék egyetemi docense.
Ilyen céllal jött létre a Verskorpusz is, amely jelenleg 45 költő műveit tartalmazza, forrásuk a Magyar Elektronikus Könyvtár számos, szerzői jogi védelem alatt már nem álló gyűjteménye. A szabad hozzáférésű adatbázist folyamatosan bővítik, legközelebb várhatóan Juhász Gyula és Radnóti Miklós költeményei kerülnek sorra.
A szavak grammatikai tulajdonságainak azonosítására a Nyelvtudományi Intézetben fejlesztett e-magyar programot használták fel, amellyel automatikusan meghatározható az adott kifejezés szótári alakja, szófaja, továbbá morfológiai jellemzői. A mintázatok feltárása szempontjából még érdekesebb, hogy létrehozhatók úgynevezett gyakorisági listák is. Így néhány kattintással egy csokorba gyűjthető, hogy költőink milyen főneveket használtak a leggyakrabban, hogy az idők során hogyan változott a jelen és múlt idejű igék aránya, a megszólítás vagy épp a második személyű igealakok használati gyakorisága. A versek rímképlet, a szavak hangrend vagy szótagszám szerint is listázhatók, a verseknél pedig láthatjuk a sorok szótagszámát és időmértékes ritmusképletét is.
A Verskorpuszt elsősorban kutatóknak és egyetemi hallgatóknak ajánlják, de jó szolgálatot tehet a pedagógusoknak a középiskolai irodalomórákat, verselemzéseket támogató adatbázisként is, hiszen az interaktív digitális eszközök bevonása az oktatásba bizonyítottan növeli a diákok motivációját.
A komplex nyelvi elemző szoftverek kifejlesztése hosszú és munkaigényes feladat, ráadásul ezek a magyar nyelv sajátosságai miatt anyanyelvünk elemzésében kevésbé hatékonyak. 2020 őszén ezért vállalta fel az ELTE vezetésével megalakult Digitális Örökség Nemzeti Laboratórium, hogy a kulturális örökség területén segíti, előmozdítja a mesterséges intelligencia eszközeinek hatékonyságát és elterjedtségét; ennek a feladatnak egyik első lépcsőfoka a Verskorpusz – fogalmazott Palkó Gábor.
A teljes interjút itt olvashatja el.
Forrás: elte.hu
Megjegyzések0
Megtekintéshez, vagy megjegyzés hozzáadásához kérjük, jelentkezzen be!
Javasolt cikkek