Globális társadalom – globális nyelv: a nyelvi processzorok világa

 

Prószéky Gábor – Kis Balázs

(MorphoLogic)

 

 

1. Információ a weben

Amit az emberiség “tudás” néven eddig összegyűjtött…

A globalizáció egyik legjelentősebb mozgatója az internet, és benne az a hatalmas dokumentumháló, amelyet röviden webnek nevezünk. Az “információ robbanása” a legtisztábban a weben levő dokumentumok mennyiségének gyors növekedéséből látszik.

Az internet-hozzáféréssel rendelkező ember szinte minden információt először a weben keres, és ügyeit is ott próbálja elintézni. Ezt nem tehetné, ha ott nem volna jelen valóban mindenféle – valós és valótlan, érdekes és érdektelen – információ. Lassan kijelenthetjük, hogy az emberiség eddig felhalmozott teljes tudása lényegében megtalálható a hálózatban.

A web strukturálatlan, mentes minden központi ellenőrzéstől, hiszen természetes fejlődés eredménye. Egyre inkább olyan, mint Stanisław Lem másodfajú démona, amely egy hordónyi dohos levegőből minden információt ki tud vonni. Az azonban véletlenszerű, hogy a kiáramló információban hol van az a darab, amelyre a felhasználó éppen kíváncsi: lehet, hogy harminc nem létező ország történelmét végig kell előbb olvasni, de az is lehet, hogy csak néhány reklámot. Ha megvizsgálnánk az internetről a számítógépek képernyőin át kiáramló információ eloszlását, azt találnánk, hogy a rendszer állapota közel jár az entrópiamaximumhoz, vagyis az információk sorrendje és lelőhelye teljesen véletlenszerű; nincsenek olyan támpontok, amelyek alapján következtetni lehetne akár a sorrendre, akár a lelőhelyre.

A weben éppen ezért kiemelten fontos a keresés szerepe. Vannak a hálózatban olyan gépek, amelyek megpróbálják rendszerbe foglalni a rendszertelenséget. Kísérletet tesznek arra, hogy végigolvassák a hálóban levő valamennyi dokumentumot – ez egyre kevésbé sikerül –, és ezekből olyan adatbázist építeni, amelyben a dokumentumok egységesen megkereshetők. Tehát olyan kivonat – index – készül belőlük, amely egyetlen számítógép-rendszerben található (Prószéky–Kis, 1999). Már ez nagy segítség, hiszen maguk a dokumentumok számítógépek millióin vannak szétszórva.

Az internetes információkeresés fő problémája az, hogy információkeresést ígérünk, de csak egy rövidebb betűsorozatot próbálunk megkeresni egy nagyon hosszúban!

A hálózatban levő információ legnagyobb része szöveges dokumentum formájában jelenik meg. A számítógépnek alapfunkciója, hogy rövid betűsorozatokat megkeres hosszú szövegekben. Ez a tevékenység azonban nélkülöz minden intelligenciát: a keresett szövegnek csak azokat az előfordulásait találja, meg, amelyek pontosan, betűhíven megegyeznek a keresendő betűsorozattal. A “kutya” szót nem találja meg azokban a szövegekben, amelyekben csak a “kutyák” vagy az “eb” betűsorozat található meg. Ez pedig nagy baj, hiszen a keresést végző ember szándéka nem a betűsorozat, hanem a betűsorozat által képviselt információ megtalálása. A számítógépnek nincs fogalma arról, hogy a “kutya” információtartalma azonos az “eb” információtartalmával; a két szó betűkódjai nem egyeznek meg, így nem tud köztük kapcsolatot felfedezni. A számítógépnek tehát nincs eszköze a tartalmi, jelentésbeli azonosság vagy hasonlóság megállapítására – sőt, még a felszínes nyelvtani, szintaktikai összefüggések felismerései is nehézséget jelent a számára, sőt a legtöbb esetben hiányzik is. Ez pedig lassan megkérdőjelezi a hálózat mint információforrás használatát, hiszen a – fentiekből láthatóan: igencsak korlátozott képességű – számítógép az egyetlen eszköz, amelyen keresztül hozzáférhetünk a weben tárolt dokumentumokhoz.

Ekkor jelenhetnek meg a hálózat számítógépein a nyelvi processzorok (amelyeket a szakma inkább nyelvi vagy nyelvtechnológiai eszközöknek nevez): ezek olyan programok, amelyek a keresés során megpróbálják azonosítani a különböző betűsorozatok közötti nyelvtani vagy éppen tartalmi összefüggéseket, hasonlóságokat. Ezek a keresőgépekbe rejtve, a laikus számára szinte észrevehetetlenül működnek, ám alapvetően megváltoztathatják a hálózat működését, s ezen keresztül jelentőségét és felhasználását is.

2. A nemzeti nyelvek szerepe a weben

A globalizáció – az előzetes félelmekkel szemben – nem eredményezte egyfajta “globális nyelv” kialakulását. Bár az angol – meghatározott szakmai és társadalmi környezetben – egyfajta világnyelvvé, lingua francává lett, paradox módon a nemzeti nyelvek és kultúrák szerepe éppen hogy felértékelődött. Ez a globális és az elektronikus kereskedelemnek köszönhető: a világszerte megnyíló, különböző helyi piacokon úgy lehet csak számottevő bevételt elérni, ha az adott piacon terjesztett termék megfelel a helyi nyelv, a helyi kultúra és a helyi szokások sajátosságainak. A szövegeket is tartalmazó termékek – azaz a számítógép-programok, könyvek és minden olyan produktum, amelyhez használati utasítás tartozik – esetén ez kézenfekvő: a terméknek a helyi nyelven kell “megszólalnia” ahhoz, hogy eladható legyen. (Az idézőjel azt jelzi, hogy a jelzett termékek többnyire írott formában tartalmazzák a szöveget.)

A globalizáció ezért a legtöbb esetben lokalizációt is jelent. A különböző termékek gyártói – kezdetben, a kilencvenes évek elején főleg a szoftvergyártók – jelentős összeget áldoznak arra, hogy termékeik a legtöbb országban az ottani nyelven, az ottani szokásoknak megfelelően jelenjenek meg. (Esselink 2000)

A fenti folyamatot erősíti az is, hogy a weben – amely kezdetben kizárólag angol nyelvű dokumentumokat tartalmazott – a növekedést elsősorban a nem angol nyelvű weboldalak megjelenése jelenti. A jelenlegi mintegy 170 millió weblapból a becslések szerint négy év múlva egymilliárd lesz, de azok közül már csak 300 millió lesz angol nyelvű – vagyis az angol nyelv még többségi pozícióját is elveszíti.

A web azonban globális marad akkor is, ha dokumentumai egy helyett néhány száz nyelv valamelyikén íródnak. A magyar nyelvű dokumentumok tehát – a hálózat természetéből adódóan – elérhetők Amerikában, Kínában, Dél-Afrikában is, mint ahogy mi is el tudjuk érni az orosz, kínai vagy éppen az izlandi nyelvű webhelyeket. Ahhoz azonban, hogy a nyelvek sokfélesége ne váljon bábeli zűrzavarrá, átjárást kell biztosítani köztük. Mit tehet az, aki csak magyarul és angolul tud, ám a létfontosságú információ csak spanyolul áll rendelkezésre a hálózatban? A korábban már emlegetett nyelvi processzoroknak ezért nemcsak a keresésben, hanem a szövegek megértésében – vagyis lefordításában – is segíteniük kell. (Megjegyezzük, hogy a nem angol nyelvű weboldalak gazdái sokszor igyekeznek “globalizálni” saját weboldalukat, ami azt jelenti, hogy a nemzeti nyelvű változat mellett annak más – elsősorban angol – nyelvű fordítását is elérhetővé teszik.)

3. A nyelvileg támogatott keresés

Említettük, hogy a nyelvi processzorok (a nyelvtechnológiai eszközök) keresést támogató szerepe elsősorban abban áll, hogy kapcsolatot keres az azonos vagy hasonló tartalmú, ám különböző felszíni megjelenésű betűsorozatok között. Ezzel a keresőgépek két jellemző hibáját próbálják csökkenteni: azt, hogy (1) nem találnak meg minden, a tárgyhoz tartozó dokumentumot, illetve (2) több ezer olyan dokumentumot is visszaadnak, amelyben valójában nincs benne a keresett információ.

A keresés nyelvi támogatása több, különböző bonyolultságú feladatot jelent, amelyek közül néhányat itt is bemutatunk. Felhívjuk az Olvasó figyelmét, hogy az interneten elérhető keresőgépek “intelligenciája” legfeljebb az 1.–3. (és egyes nyelvek esetén a 8.) pontnak felel meg. A többi feladat még megvalósításra vár, ám a hálózat alapvető érdeke, hogy ez mielőbb megtörténjen.

1.     Fel kell ismerni ugyanazon szavak különböző ragozott alakjait. Ha a felhasználó az alma szót keresi a hálózati keresőgépnek meg kell találnia azt az almaként, almát, almák stb. alakokban is. Ez látszólag megoldható úgy is, hogy megkeresünk minden “alma” vagy “almá” kezdetű szót (ezt általában így jelölik: alma* vagy almá*). Ennek alkalmazása esetén viszont találat lesz az almanach és az almárium is, amelyeknek sem nyelvi, sem tartalmi szempontból nincs közük az almához. Bonyolultabb eljárást kell tehát alkalmazni: azokat a szavakat szabad csak találatnak tekinteni, amelyek szótári töve az alma, így kiszűrhetők a hibás találatok.

2.     A megadott szavakat egyes összetételeikben is meg kell találni. Az alma szó például érdekes lehet a vadalma összetételben, azonban hamis a találat a hatalma szóban. A nyelvi processzornak tehát meg kell különböztetnie a valódi összetételeket a nem valódiaktól.

3.     Fel kell ismerni a megadott szavak egyes képzett alakjait. Ebből a szempontból rokonok a házasság és a házas szavak, ahol az előbbi az utóbbiból keletkezett a –ság képzővel. Ha viszont a házas vagy házasság szavakat keressük, a ház annak ellenére sem lehet találat, hogy a házas szó végső soron tartalmazza a ház szót mint eredeti tövet. Ha ezt a jelenséget nyelvtani oldalról kell megfognunk, azt mondhatjuk, hogy a nyelvi processzor nem tekintheti úgy a házas szót, mint a ház szó képzett alakját: azt önálló szótári tőként kell kezelnie.

4.     Több szavas kifejezések keresése. Vannak olyan többszavas kifejezések, amelyek egyetlen szóként – precízebben: egyetlen szótári vagy lexikális elemként – viselkednek. Ilyen a magyarban külön írandó házi feladat vagy a száj- és körömfájás. Bár a szótárírásban szabály, hogy a címszó helyén nem szerepelhet többszavas kifejezés, a száj- és körömfájás kifejezéssel nem tud mit kezdeni a magyar szótárírás, hiszen nincs külön szájfájás és körömfájás. Egyáltalán, az itt említett kifejezések valamennyien egységes egészként jelennek meg a szövegben, együtt ragozódnak, és többnyire rögzült formában fordulnak elő. Emiatt a keresőgép nem teheti meg, hogy a “házi feladat” keresése esetén külön keresi meg a házi és a feladat szavakat – ahogyan a legtöbb mai keresőgépben mégis tapasztalhatjuk. Ezzel kapcsolatban az is nehézséget jelent a nyelvi processzor számára, hogy a különböző kifejezések nem egyformán rögzültek a nyelvben, így a szövegben meglehetős változatossággal fordulhatnak elő, egyes részeik akár távol is kerülhetnek egymástól. Nagyon egyszerű példa az el kell végezni a munkát, amelyben egy nyelvileg tisztességgel támogatott keresőrendszernek meg kell találnia az elvégez igét.

5.     Összetett tulajdonnevek keresése. A fentihez hasonló problémát jelentenek a több elemből álló tulajdonnevek: Magyar Tudományos Akadémia, X Rt. dr. Y stb. Ezeket mindenképpen egy szóként kell kezelni, ami azért nehéz, mert a számítógép számára csak egyetlen természetes szóhatároló jel van, a szóköz. A humán olvasó viszont tulajdonképpen másféle szóközt lát például a Magyar Tudományos Akadémia nevében, mint az azt befoglaló mondat más szavai között: ez a szóköz – ahelyett, hogy elválasztaná – éppen hogy összeköti a körülötte levő szavakat. A számítógép számára azonban mindkét szóköz ugyanazt a számkódot viseli. Azonban legyünk igazságosak: egyes szövegszerkesztők lehetővé teszik az úgynevezett nem törő szóközök bevitelét, de ezek használata nem jellemző az elektronikusan rögzített szövegekre, így a keresőgépekben sem használhatjuk fel. Egyetlen alternatívaként marad a nyelvi processzor, amely több szóra kiterjedő elemző program és szótár segítségével ismeri fel, hogy egyes szavak jobban összetartoznak, mint mások.

6.     Rokon értelmű megfelelők keresése. Mind mostanáig ugyanazon szavak különböző alakjainak felismerését boncolgattuk. Ezek vizsgálata viszonylag egyszerűen megoldható, ám csak a nyelvtani különbségekre terjed ki. A tartalmi változatok felismerésének legegyszerűbb eszköze a következő: ha a felhasználó “felad” egy szót a keresőgépnek, az – a nyelvi processzorba épített szinonimaszótár segítségével – annak rokon értelmű társait is bevonja a keresésbe. A szinonimák alkalmazását persze kombinálni kell az előbb felsorolt eljárásokkal. Ha például a kutya szót keressük, szükségünk lehet azokra a szövegekre is, amelyekben az ebadó található meg. Mivel kutyaadó nincs, a kutya szóból kiindulva nem találjuk meg a kutyatartás adóztatásáról szóló írásokat, ha nem használjuk fel a szinonimáit.

7.     Idegen nyelvű megfelelők keresése. A 2. részben írtunk a web nyelvi sokféleségéről. Vannak például olyan kutyafajták, amelyek tenyésztéséről angol vagy német weboldalakon olvashatók a leghitelesebb információk. A keresőgép ezért akkor jár el igazán helyesen, ha a megadott szó (kutya) más nyelvű megfelelőit (dog, Hund, chien stb.) is megkeresi a hálózaton. Ehhez a beépített nyelvi processzornak több nyelvű szótárt is tartalmaznia kell. Emellett vannak olyan keresőrendszerek is, amelyeknek egész mondatos kérdést is fel lehet tenni – milyen jó lenne, ha maga az összetett kérdés is lefordulna a web többi nyelvére, és mindenhonnan választ kapnánk rá...

8.     Az eredmény automatikus visszafordítása. Ha a felhasználó nem tudta feltenni például németül a keresőkérdést, akkor nem várható el tőle, hogy a választ meg is értse. Éppen ezért megkíván(hat)juk a keresőgéptől, hogy – a nyelvi processzorba épített gépi fordító (!) modul segítségével – a megtalált dokumentumokat a felhasználó anyanyelvén – de legalábbis egy, általa értett nyelven adja vissza. Ma már számos keresőgéptől lehet fordítást kérni, amely nagyobb világnyelvek (angol, német, francia, spanyol, portugál, orosz, kínai, japán) között működik – sajnos, magyarról vagy magyarra még nem lehet fordítani...

9.     Tartalomreprezentáció: a szavakon túl... A tartalmi kapcsolatok nemcsak a rokon értelműségre vagy a más nyelvű fordításra terjedhetnek ki. Lehet szó például a szó jelentését tartalmazó magasabb kategóriáról (például: kutya – háziállat – állat), alacsonyabb kategóriáról, fajtáról (például: kutya – vizsla – magyar vizsla), funkcióról (kutya – házőrző, vakvezető stb.) vagy egyéb jelentésbeli kapcsolatról. E kapcsolatok felismerése viszont megkívánja, hogy a számítógép olyan szótárral rendelkezzen, amely az egyes szavak és kifejezések jelentését ábrázolja. Próbálták már a jelentést elvonatkoztatással, mesterséges világmodell segítségével ábrázolni, ennek azonban a web általános környezetében – ahol szinte bármilyen információ előfordulhat – nincs tere (nem dolgozható ki). Ha azonban jobban szemügyre vesszük a fenti példákat, láthatjuk, hogy a tartalmi kapcsolatok szótári szavak közötti kapcsolatokra vannak visszavezetve. A számítógép tehát azzal ábrázolhatja a szavak jelentését, hogy az erre szolgáló speciális szótárban különböző típusú kapcsolatokat (kategória, funkció stb.) tart fenn a címszavak között. Az ilyen szótárak legismertebbje a WordNet (Miller 1981). Számos – különböző nyelvekre kidolgozott – szóháló létezik már, így ezek a közeljövőben megjelenhetnek a nyelvi processzor fegyvertárában is.

4. A gépi fordítás az internetkorszakban

A globalizáció elkerülhetetlen kísérőjelensége az is, hogy mostanában szinte mindenkinek egyre több idegen nyelvű szöveg megértésére vagy lefordítására van szükség. Tehát nemigen kell magyarázni, hogy a számítógép-hálózatok – és ezek között az internet – jelentősen hozzá fognak járulni ehhez. Tény, hogy ma soha nem látott mennyiségű idegen nyelven írt szöveget kell lefordítani, de legalábbis megérteni – ehhez pedig mostanában egyre többen a számítógéptől próbálnak segítséget kérni. (Prószéky–Kis (2) 1999)

Az automatikus gépi fordítás immár fél évszázados múltra tekinthet vissza, és évtizedekkel ezelőtt készültek már működő – de jelentős korlátozásokkal működő – rendszerek. Talán meglepő, de a mai fordítórendszerek javarészt a hetvenes években készült programokra épülnek. Miért jobb képességűek mégis? Az informatika az elmúlt évtizedekben jelentős extenzív – mennyiségi – fejlődésen ment keresztül, vagyis megnőtt az egy gépen tárolható és az egységnyi idő alatt feldolgozható (nyelvi) adatok mennyisége. Egyszerűen szólva: gépeink nagyobbak és gyorsabbak, így a régi programok sokkal gyorsabban és eredményesebben működnek. Sőt, az erőforrások gyarapodása azt is lehetővé tette, hogy most megvalósítsunk korábban gazdaságtalannak tartott és elvetett eljárásokat. (Csak illusztrációul: mai PC-ink memóriakapacitása három nagyságrenddel nagyobb a húsz évvel ezelőttiekénél, és a feldolgozási sebesség is körülbelül két nagyságrendet nőtt...)

Ha a felhasználó a szöveget megérteni szeretné, az automatikus fordítógépre van szüksége. Ezért is írtuk a 3. részben, hogy a keresőgép nyelvi processzora fordítógépet is kíván. Ha viszont közölhető fordítást kell készítenie a szövegről, csak az emberi fordítás útján juthat megfelelő minőséghez. Ekkor lép be az informatika extenzív fejlődésének következő fázisa: a minőséget – az algoritmust – felváltja a mennyiség – az adatbázis. Vagyis a számítógép nem bonyolult program segítségével állítja elő az egyes mondatok, szövegrészek fordítását, hanem egyszerűen megkeresi a lefordítandó mondatot az erre szolgáló adatbázisban, és visszaadja az ott tárolt fordítást. Az adatbázis neve: fordítómemória. Gépeink kapacitása akkora, hogy bizonyos feltöltési idő után egy szakterület szinte minden mondata lefordítható az adatbázisból... Így járt Kaszparov is az IBM Deep Blue számítógépével: a gép azzal verte meg, hogy négy-öt nagyságrenddel több múltbeli sakkjátszmára “emlékezett”, mint a nagymester.

A gépi fordításnak természetesen csak tudományos, szakmai, esetleg köznapi szövegek (hírek, hirdetések stb.) lefordításában vagy megértésében van szerepe. Vizsgálódásunk nem terjed ki – és remélhetőleg soha nem fog kiterjedni – a szépirodalmi szövegek számítógépes vizsgálatára és a műfordításra.

Végezetül még egy gondolat az extenzív fejlődésről: ha egyetlen gép kapacitása akkora, amekkorának fentebb érzékeltettük, gondoljuk el, milyen számítási kapacitást képvisel a hálózat, amely több százmillió (vagy több milliárd?) hasonló gépből áll! Ma már vannak olyan projektek, amelyekben az internethasználók felajánlhatják számítógépük kapacitásának egy részét, és a felajánlott kapacitások konglomerátumából egyetlen óriási számítógépet alakíthatnak ki...

Irodalom

Prószéky Gábor–Kis Balázs: Számítógéppel emberi nyelven (Természetes nyelvi feladatok megoldása számítógéppel). SZAK Kiadó, Bicske (1999)

Prószéky Gábor–Kis Balázs: Fordítástámogatás a hálón. (Új kellékek a nyelvi eszköztárban). Új Alaplap, 1999. április. pp. 19–21 (1999)

Esselink, Bert: A Practical Guide to Localization. John Benjamins, Amsterdam, (2000)

Miller, George. WordNet (1988)