
Budućnost strojnoga prevođenja je u neuronskim mrežama
Prof. Marko Tadić, međunarodno prepoznati hrvatski lingvist
Jezikoslovac Marko Tadić redoviti je profesor u trajnome zvanju na Odsjeku za lingvistiku Filozofskoga fakulteta u Zagrebu. Predstojnik je Katedre za algebarsku i računalnu lingvistiku na istome Odsjeku od 2001., a od 2008. je i član suradnik Hrvatske akademije znanosti i umjetnosti. Vodio je i sudjelovao u brojnim međunarodnim projektima u kojima se bavi korpusnom lingvistikom, računalnom lingvistikom, jezičnim tehnologijama i istraživačkim infrastrukturama za (e-)humanističke i društvene znanosti.
Objavio je više od 80 članaka i 5 knjiga koji su postigli međunarodnu prepoznatljivost i visoku citiranost, a jednim je od autora najvećega hrvatskoga čestotnoga rječnika Hrvatski čestotni rječnik (1999.). S profesorom Tadićem porazgovarali smo o uspjehu njegova recentnog projekta strojnoga prevođenja, o položaju hrvatskoga jezika u digitalnom dobu i o planovima i izazovima u budućnosti.
Projekt je nastao s ciljem olakšavanja komunikacije u okviru europskih institucija. Kako je postignuta visoka kvaliteta prijevoda?
– Projekt Prevoditelj za predsjedanje Vijećem Europske unije nastao je u suradnji jezično-tehnološke tvrtke Tilde iz Rige, Rumunjske akademije, Ureda finskoga premijera i Filozofskoga fakulteta Sveučilišta u Zagrebu. Riječ je o projektu koji je dobio potporu iz programa Instrument za povezivanje Europe (Connecting Europe Facility, CEF) ne bi li se tijekom šestomjesečnoga predsjedanja država-članica EU-a nadišle jezične prepreke koje postoje kako za razne predstavnike iz tijela EU-a, tako i za domicilne službenike. Naime, tijekom predsjedanja velik broj službenika s obje strane usmjeren je na međusobnu komunikaciju, a domicilni jezici nisu uvijek među onima koji se sustavno poučavaju kao strani jezici. Takav je slučaj i s ovim ciklusom predsjedanja koje se uvijek odvija u tzv. Trojkama. Sadašnju trojku čine Rumunjska, Finska i Hrvatska, a prethodnu trojku su činile Estonija, Bugarska i Austrija. Ovo je već druga iteracija toga projekta u kojem Tilde daje tehnološku podlogu, a partneri iz pojedinih država – predsjedateljica osiguravaju visokokvalitetnu jezičnu građu kojom se sustavi za prevođenje između engleskoga i domicilnoga jezika potom treniraju metodama strojnoga učenja i pomno provjeravaju. Tako se za prijevodne parove englesko-hrvatski i hrvatsko-engleski bazični sustav istrenirao na engleskim tekstovima i hrvatskim prijevodima Pravne stečevine EU-a (nekoliko milijuna rečenica), a potom smo mu dodali još oko pola milijuna rečenica s odabranih područja za koja se očekuje kako će biti dominanta u komunikacijama tijekom hrvatskoga predsjedanja, a riječ je o tekstovima iz vanjske i unutarnje politike, zakonskim tekstovima i nešto tekstova iz područja kulture.
Prevoditelj je po nekim pokazateljima uspješniji i od popularnog Google Prevoditelja koji se razvija već godinama?
-Upravo je ovih posljednjih pola milijuna rečenica zaslužno za poboljšanje kvalitete prijevoda i prestizanje Googleova Prevoditelja. Naime, u istraživanjima s područja strojnoga prevođenja postoje mjerila za određivanje kvalitete prijevoda i ona se iskazuju u bodovima (npr. BLEU). Naš je prevoditelj za smjer englesko-hrvatski bolji za gotovo 6 BLEU bodova, a za smjer hrvatsko-engleski za gotovo 3 BLEU boda od Googleova Prevoditelja jer smo ga trenirali s odabranim tekstovima iz ograničenih područja, a problem Googleova Prevoditelja je što on uzima sve što se može naći na mreži često bez obaziranja na pojedinačna područja. Koliko je naš sustav točan, pozivamo vaše čitatelje da isprobaju na raznim vrstama tekstova na adresi hr.presidencymt.eu. Za tekstove iz treniranih područja očekujemo dobre rezultate, ali za tekstove s područja za koja sustav nismo trenirali, valja očekivati više pogrješaka u prijevodu.
Veliki uspjeh ovakvoga koncepta strojnog prevođenja zainteresirao je hrvatsku, ali i europsku javnost. Možete li opisati specifičnosti neuronskog pristupa strojnome prevođenju?
-Do prije dvije-tri godine prevladavajuća metoda strojnoga prevođenja je bilo statističko strojno prevođenje gdje je računalo iz više milijuna uparenih rečenica (gdje je jedna rečenica na izvornome jeziku, a druga njezin prijevod na ciljni jezik) pokušalo statističkim metodama pronaći najvjerojatnije prijevodne ekvivalente za pojedine riječi ili fraze unutar tih rečenica. U međuvremenu se posegnulo za metodama iz umjetne inteligencije, pa su se u treniranju sustava za strojno prevođenje počele koristiti neuronske mreže i tako je nastalo neuronsko strojno prevođenje. Neuronske mreže ne gledaju samo pojedinačne riječi ili fraze, već uzimaju rečenicu kao cjelinu, pa se zato postiže kvaliteta prijevoda koja je do sada najsličnija ljudskim prijevodima. To još uvijek ne znači kako strojni prevoditelji stvaraju tekstove koji se izravno mogu objavljivati, ipak ih ljudi trebaju pregledati i ispraviti. No broj je pogrješaka znatno manji nego kod statističkih strojnoprevoditeljskih sustava.
Je li moguće da strojno prevođenje koje se ubrzano razvija u bližoj budućnosti potpuno zamijeni prevoditeljski posao? Gdje su, osim u prevođenju, moguće primjene ovih tehnologija?
-Osim u slučaju visoko repetitivnih i krajnje dosadnih tekstova (npr. deklaracije na namirnicama ili vremenska izvješća), strojno prevođenje nikada ne će zamijeniti ljude-prevoditelje, ali će računala upravo ljudima znatno pomoći u obavljaju prevoditeljskoga posla. Danas se u većim prevoditeljskim tvrtkama stubokom promijenio proces prevođenja. Znatno je učinkovitije posegnuti za alatima za strojno potpomognuto prevođenje (Computer Assisted Translation, CAT) koji se služe bazom već prevedenih rečenica. Kad je sljedeća rečenica, koju prevoditelj mora prevesti, ista ili slična nekoj rečenici iz baze, sustav ponudi čovjeku prevoditelju postojeći prijevod te rečenice uz moguće oznake gdje se one razlikuju, a mnogi od tih sustava uključuju i ponudu strojnoga prijevoda te iste rečenice. Međutim, puna je kontrola procesa prevođenja u prevoditeljevim rukama, on odlučuje koji prijevod je primjereniji i treba li ga i kako ispraviti. Kad se odluči za konačni prijevod, onda se novi par rečenica na izvornom i ciljnom jeziku smješta u bazu za kasniju uporabu. Uostalom, službeni je proces prevođenja u svim tijelima EU-a upravo takav jer je EU kao najveći svjetski korisnik prevođenja htio racionalizirati troškove prevođenja budući da se svi službeni dokumenti EU-a moraju objaviti na sva 24 službena jezika.
Sustavi za stojno prevođenje već se pojavljuju i u drugim područjima jezičnih tehnologija, pa postaju neka vrsta infrastrukturne usluge. Tu je bitan sustav eTranslation koji Europska komisija nudi svim zaposlenicima svih tijela javne vlasti svih država članica EU-a besplatno. Taj sustav omogućuje npr. da se automatski prevedu tekstovi natječaja za javnu nabavu objavljeni u Portugalu na portugalskome, pa se hrvatske tvrtke mogu javljati i na te natječaje. Drugi je primjer uporaba strojnoga prijevoda tijekom pristupanja sadržajima prikupljenima u Europeani. To su primjeri razvoja zajedničkoga digitalnoga tržišta EU-a koje se jako razvija u zadnjih nekoliko godina. Već danas imate sustave za razmjenu poruka koji uključuju strojno prevođenje (npr. u Skypeu), pa možete razmjenjivati poruke s Kinezima gdje će vam se one na zaslonu prikazivati na hrvatskome, a njima na kineskome.
Vaš znanstveni i stručni rad usmjeren je uključenju hrvatskoga jezika u suvremene digitalne tokove. Kako vidite položaj hrvatskoga jezika u tome digitalnome europskom kontekstu, ali i u okviru naše akademske zajednice? Cijenimo li dovoljno vlastiti jezik?
-Gotovo čitav moj tridesetgodišnji znanstveni rad posvećen je razvoju jezičnih tehnologija za hrvatski jezik. Hrvatski jezik nećemo očuvati tako da ga konzerviramo već jedino tako da ga prilagodimo komunikacijskim kanalima ovoga stoljeća, a pri tome još uvijek ne možemo niti zamisliti kako će oni izgledati krajem stoljeća. Teško je očekivati kako ćemo kao vrsta ubrzo razviti telepatiju, pa ćemo i dalje morati komunicirati na prirodnome jeziku, ali služeći se svim blagodatima komunikacijskih tehnologija kao što su mobiteli, društvene mreže, e-pošta, pričaonice, itd.
Jezične su tehnologije zapravo nova pismenost. Donedavno su se jezici dijelili na one s pismom i one bez pisma, a danas se dijele na one s razvijenim jezičnim tehnologijama i bez njih. Jezici bez jezičnih tehnologija ostaju s one strane digitalne razdjelnice i te jezične zajednice ne mogu ravnopravno sudjelovati u npr. digitalnome gospodarstvu. Za svaki jezik jezične tehnologije treba razviti od temelja jer se svaki jezik odlikuje zasebnom kombinacija jezičnih kategorija i njihovih mogućih vrijednosti, pa se ne mogu rješenja iz jednoga jezika primjenjivati na drugi. Taj nam posao ne će odraditi nitko drugih osim nas samih, a položaj 24. službenoga jezika EU-a nas još više obvezuje jer ne smijemo zaostajati za drugim jezicima.
Ako za hrvatski ne razvijemo puni spektar jezičnih tehnologija, postat će funkcionalno “digitalno nepismen” jezik. Naime, sigurno se nećemo odreći današnjih kanala komunikacije, a ako za jezik postoje razvijeni alati i pomagala koja će olakšati i ubrzati njegovu uporabu, onda će se taj jezik koristiti i dalje. Ako, međutim, za hrvatski tih pomagala ne bude, korisnici će iz čiste komocije posegnuti za jezikom za koji su jezične tehnologije razvijenije. To će značiti funkcionalnu “smrt” hrvatskoga jezika u cijelim komunikacijskim područjima, a to bismo svakako htjeli izbjeći.
Nešto je potpore za razvoj hrvatskih jezičnih tehnologija pristizalo iz MZT-a početkom dvijetisućitih, ali je to stalo od 2011. Međutim, velika je prednost što je u međuvremenu Hrvatska ušla u EU, pa je hrvatski jezik postao 24. službeni jezik EU i time su se otvorila vrata i za financijsku potporu iz EU-a. Upravo su nam ta sredstva pomogla pri razvoju ovoga prevoditelja.
Vodili ste niz domaćih i međunarodnih projekata povezanih s jezičnim tehnologijama i jezičnim resursima. Koje teme i uspjehe možete izdvojiti?
-Približavanje hrvatskoga jezika digitalnome svijetu moglo bi se smatrati mojim credom. Razvoj jezičnih tehnologija kreće od izgradnje velikih jezičnih resursa (korpusa i digitalnih rječnika) tj. od prikupljanja velikih količina digitalno pohranjenih podataka o jeziku koji onda pružaju dovoljnu količinu podataka za razvoj jezičnih alata i proizvoda. U tome smislu je značajan npr. prvi veliki Hrvatski čestotni rječnik (objavljen u suautorstvu s akademikom Milanom Mogušem i prof. Majom Bratanić) iz 1999. Hrvatski nacionalni korpus prvi je hrvatski računalni korpus koji je obuhvatio više od 100 milijuna riječi, a danas je online dostupna njegova treća inačica iz 2013. s više od 216 milijuna riječi. Valja spomenuti i vrijedan projekt HR4EU financiran iz Europskoga socijalnoga fonda, a riječ je o portalu za besplatno učenje hrvatskoga kao stranoga jezika na kojem brojimo više od 5000 korisnika iz cijeloga svijeta. Trenutačno paralelno radim na svojem sedmom, osmom i devetom europskom projektu, a od 1. lipnja 2020. počinje mi i deseti koji je već prihvaćen. U jednome od tekućih projekata (MARCELL) sedam partnera iz sedam srednjoeuropskih i istočnoeuropskih država-članica prikuplja sve zakonodavne tekstove na sedam jezika (govorimo o stotinama milijuna riječi u svakome jeziku), računalno ih obrađuje, obogaćuje gramatičkim opisima i klasificira u 21 vršnu domenu prema tezaurusu EUROVOC. Time se prikuplja vrijedna građa za dodatno treniranje sustava za strojno prevođenje jer će se svaki od tih korpusa upotrijebiti za izgradnju tzv. Jezičnih modela, a oni će se rabiti za automatsko ispravljanje izlaza iz strojnoprevoditeljskoga sustava eTranslation. Time će vjernost prijevoda zakonskih tekstova još više narasti.
U javnosti prevladava percepcija da je u društvenim i humanističkim znanostima teško biti konkurentan u europskim projektnim prijavama. Koji je put uspjeha?
-Europska komisija otvara mnogo natječaja za razna znanstvena područja, pa tako i u područjima društvenih i humanističkih znanosti. Konkurencija jest velika i u načelu je postotak prihvaćenosti projekata između 10 i 12%. Najteže je dobiti prvi europski projekt, a kad se na njemu pokažete kao vjerodostojan i kreativan partner, onda je lakše ući u svaki sljedeći konzorcij. Mojem timu s Filozofskoga fakulteta Sveučilišta u Zagrebu se dogodilo da su nas uvijek pozivali u projekte, pa se nismo morali u njih gurati. Čini se kako smo imali i nešto sreće jer se u perspektivi hrvatskoga ulaska u EU, hrvatski jezik, kao budući 24. službeni jezik EU-a, pojavio kao prioritetan, a mi smo taj trenutak znali iskoristiti. Bili smo neka vrsta poželjne udavače. Doduše, trebalo je već od ranije imati znanje i razvijene jezične resurse i jezične alate za hrvatski jezik tj. trebalo je predvidjeti u kojem će se smjeru kretati digitalizacija jezika, a to smo očito znali.
Visoku međunarodnu citiranost također nije lako postići u domaćim humanističkim znanostima. Prema Google znalcu Vaši su radovi citirani više od 1000 puta. Kako ste došli do međunarodne prepoznatljivosti u ovom visokokonkurentnom polju s obzirom na poslovičnu podfinanciranost naše znanosti?
-Izgleda kako ste se dobro pripremili za ovaj razgovor. Niti sam nisam znao kolika je citiranost mojih radova. Hvala vam na tom podatku. Od mojega prvog europskog projekta iz 2008., shvatio sam kako treba povlačiti sredstva iz europskih fondova jer je naša znanost kronično podfinancirana. Žao mi je što se u pregovorima za pristupanje EU-u nije dogovorilo npr. da se barem 3% BDP-a mora izdvajati za znanost. To je EK mogla postaviti kao jedan od uvjeta kao što je to postavljeno Rumunjskoj. I sad možete vidjeti kako se rumunjski istraživači, bar na ovom mom znanstvenom području, pojavljuju posvuda i sa sjajnim rezultatima. Taj porast domaće potpore za ona znanstvena istraživanja koja ne moraju imati međunarodnu privlačnost, nama tek predstoji, a riječ je u mnogim slučajevima o za Hrvatsku i hrvatski identitet nezaobilaznim istraživanjima. Pogledajte samo npr. koliko malo imamo povjesničara koji znaju osmanski turski ili srednjovjekovni madžarski, pa mogu u arhivima u Pešti i Istanbulu čitati tamo pohranjene tisuće do sada nepročitanih dokumenata. Čitava se hrvatska srednjovjekovna povijest može iznova napisati nakon uvida u to gradivo. Tko će ta istraživanja financirati osim Republike Hrvatske?
Koji su vam daljnji planovi u vašem radu u akademskoj zajednici?
-Svakako se natjecati i dalje za europske projekte, okupljati mlade asistente i kroz ta im sredstva osiguravati plaće kako bi ostali u Hrvatskoj raditi u svojoj struci. Dalje razvijati jezične tehnologije za hrvatski jezik jer tome zapravo nikad nema kraja. Stalno se otkrivaju novi postupci, otvaraju nove mogućnosti za poboljšanje postojećih sustava i novi oblici komunikacije u kojima se mora pojaviti podrška i za hrvatski jezik.