EESTI KEELETEHNOLOOGIA ANNO Einar Meister TTÜ Küberneetika Instituut Foneetika ja kõnetehnoloogia labor

Seotud dokumendid
RINGVAADE /8/08 2:36 PM Page 221 EESTI KEELE KEELETEHNOLOOGILINE TUGI ( ) novembril 2007 toimus Tallinnas TTÜ Küberneetika Insti

EKT2011_2017_programm_ministeeriumidele

Esialgsed tulemused

Bild 1

Markina

KOMISJONI MÄÄRUS (EL) 2019/ 316, veebruar 2019, - millega muudetakse määrust (EL) nr 1408/ 2013, milles käsitletakse Euroopa L

Layout 1

JABRA STYLE Kasutusjuhend jabra.com/style

KUULA & KORDA INGLISE KEEL 1

Microsoft PowerPoint - Konjunktuur nr 3 (194) pressile marje .ppt

Sissejuhatus Informaatikasse Margus Niitsoo

PowerPoint Presentation

Microsoft PowerPoint - Lisa 5 koolituse materjalid

Pealkiri

kaubamärgikaitsmineEkke [Kirjutuskaitstud] [Ühilduvusrežiim]

PowerPoint Presentation

COM(2006)528/F1 - ET

Mascus - Jatiina esitlus 2017

PowerPointi esitlus

PowerPointi esitlus

PowerPoint-præsentation

Microsoft PowerPoint - Allan Hani RKAS korrashoiuhanked - EKKL

EESTI STANDARD EVS-EN ISO 3381:2007 See dokument on EVS-i poolt loodud eelvaade RAUDTEEALASED RAKENDUSED Akustika Raudteeveeremi sisemüra mõõtmine (IS

Microsoft Word hankeplaan veebi.rtf

Pealkiri

Tootmise digitaliseerimine

Microsoft PowerPoint - TallinnLV ppt4.ppt

Eesti Energia muutuvas keskkonnas Olavi Tammemäe Keskkonnajuht

Pealkiri

Skriptimiskeeli, mida ei käsitletud Perl Python Visual Basic Script Edition (VBScript) MS DOS/cmd skriptid Windows PowerShell midagi eksootilisemat: G

PowerPoint Presentation

Haridus- ja Teadusministeeriumi seisukohad kurtide hariduse korraldamisel Kalle Küttis Koolivõrgu juht

ET Kokkuvõte ESPADi aasta aruanne Sõltuvusainete tarbimine kooliõpilaste hulgas 36 Euroopa riigis

TUNNUSTATUD TURVALAHENDUS Esitaja: G4S Eesti AS, Alarmtec AS Automaatse numbrituvastussüsteemi paigaldamine keelatud piirikaubanduse vastu võitlemisek

PÄRNU TÄISKASVANUTE GÜMNAASIUM ESITLUSE KOOSTAMISE JUHEND Pärnu 2019

Tartu Ülikool

Rühmatöö Moodle is Triin Marandi 2017 oktoober

10/12/2018 Riigieksamite statistika 2017 Riigieksamite statistika 2017 Selgitused N - eksaminandide arv; Keskmine - tulemuste aritmeetiline keskmine (

AG informaatika ainekava PK

Operatsioonisüsteemi ülesanded

Targocid Art 30 - CHMP Opinion

Microsoft Word - Pajusalu_Eesti murrete uurimine Wiedemannist Viitsoni_ettekanne.doc

Title of the presentation

Microsoft Word - Lisa 4_Kohtususteemide vordlus

Korralduse lisa_ docx

Microsoft Word - installation-guide.doc

PowerPoint Presentation

M16 Final Decision_Recalculation of MTR for EMT

Microsoft Word - ref - Romet Piho - Tutorial D.doc

EE-macbook-retina-12-early2015-qs.indd

M16 Final Decision_Recalculation of MTR for Elisa

Võrguväljaanded ja veebiarhiveerimine

Conseil UE Euroopa Liidu Nõukogu Brüssel, 30. november 2016 (OR. en) 14723/16 PROTOKOLLI KAVAND 1 Teema: LIMITE PUBLIC PV/CONS 61 EDUC 391 JEUN 103 CU

KIIRJUHEND Lugege kiirjuhend enne seadme kasutamist hoolikalt läbi. Kõik tärniga (*) märgitud juhised kehtivad WLAN + 3G mudelitele (Lenovo B6000-H(V)

PowerPoint Presentation

Uve Poom & Jaan Urb Copyright Rahastuse leidmine & annetuste kogumine

5_Aune_Past

DNS teenus teoorias ja praktikas Autor Siim Adamson ITK Autor: Siim Adamson ITK

Programme rules for the 2nd call

EBÜ Üldkoosolek

Infotehnoloogia kasutamisega seotud ootused ja lootused

KINNITATUD programmi nõukogu koosolekul Haridus ja Teadusministeeriumi teadus- ja arendustegevuse programmi Eesti keel ja kultuur digiajast

FRESENIUS ÕPPEKESKUS KIIRJUHEND

Kom igang med Scratch

PowerPointi esitlus

Eesti Kirjandusmuuseum Eesti-uuringute Tippkeskus Eesti-uuringute Tippkeskuse konverents Eesti-uuringute interdistsiplinaarsed dialoogid 28. ja 29. ap

Slaid 1

Microsoft Word - Eesti-turism2015

TALLINNA TEHNIKAÜLIKOOLI KÜBERNEETIKA INSTITUUDI

Microsoft Word - Bose_SoundLink_around-ear_Kasutusjuhend.docx

PISA 2015 tagasiside koolile Tallinna Rahumäe Põhikool

B120_10 estonian.cdr

Control no:

MTAT Loeng 11 ( )

GRUPI-SMS Veebirakenduse kasutamise juhend Rakendus Elisa grupi-smsi rakendus Väljaandja Elisa Eesti AS Juhendi koostamise kuupäev Versioon

Elisa Ring Elisa Ringi mobiilirakendus Versioon

Microsoft PowerPoint - P_Engelbrecht.ppt [Compatibility Mode]

PowerPoint Presentation

PowerPoint Presentation

Slide 1

Teenuste hinnakiri Kontohalduri nimi: Coop Pank AS Konto nimi: arvelduskonto Kuupäev: Käesolevas dokumendis on esitatud tasud maksekontoga

E-õppe tehnoloogiad kõrgkoolis E-learning Technologies in Higher Education MTAT

Microsoft PowerPoint - MKarelson_TA_ ppt

loeng2

PowerPointi esitlus

PowerPoint Presentation

PRESENTATION HEADER IN GREY CAPITALS Subheader in orange Presented by Date Columbus is a part of the registered trademark Columbus IT

Tartu likool

SAF 7 demo paigaldus. 1.Eeldused SAF 7 demo vajab 32- või 64-bitist Windows 7, Window 8, Windows 10, Windows Server 2008 R2, Windows Server 2012, Wind

EUROOPA KOMISJON Brüssel, COM(2015) 563 final KOMISJONI ARUANNE EUROOPA PARLAMENDILE JA NÕUKOGULE liikmesriikides aastal püügivõimsus

C

Komisjoni otsus, 29. veebruar 2012, millega luuakse keeleressursside ja -tehnoloogia ühine infrastruktuur Euroopa teadusuuringute infrastruktuuri kons

VaadePõllult_16.02

Pärnu Maavalitsus Akadeemia 2, Pärnu Tel Viljandi Maavalitsus Vabaduse plats 2, Viljandi Tel www

KULUDOKUMENTIDE AUDITI ARUANNE

Ppt [Read-Only]

(Microsoft PowerPoint - Investeerimishoius_Uus_Maailm_alusvara_\374levaadeToim.ppt)

MTAT Loeng 2 ( )

PowerPoint Presentation

Väljavõte:

EESTI KEELETEHNOLOOGIA ANNO 2013 Einar Meister TTÜ Küberneetika Instituut Foneetika ja kõnetehnoloogia labor

Infotehnoloogia areng Thomas J. Watson (IBM president), 1943: Ma arvan, et maailmas on turgu vahest ehk viie arvuti jaoks. Ken Olson, (Digital Equipment Corp. president), 1977: Ma ei näe mingit põhjust, miks inimene peaks endale koju arvutit tahtma. 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 2

Infotehnoloogia areng: liidesed 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 3

Infotehnoloogia areng: liidesed Microsoft (1998): Klaviatuurita arvuti tuleb viie aasta pärast 2010: Apple ipad 2010: Google voice search 2011: Apple Siri 2012: Microsoft speech-to-speech translation 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 4

Keeletehnoloogia olemus Tere! Eestikeelse kõne tuvastus Eestikeelse kõne süntees Eesti <-> Inglise MT 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 5

Keeletehnoloogia on...... keelealaste teadmiste rakendamine selliste arvutisüsteemide loomiseks, mis võimaldavad analüüsida, tuvastada, mõista ja sünteesida inimkeelt 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 6

Keeletehnoloogia on interdistsiplinaarne TEHIS- INTELLEKT Arvutilingvistika INSENERI- TEADUS Loomuliku keele töötl. Psühholingvistika Infootsing SUULISE KÕNE TÖÖTLUS Inimenemasin suhtlus Kognitiivse d teadused Dialoog KEELETEADUS Kujunditöötlus PSÜHHOLOOGIA 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 7

Keeletehnoloogia komponendid Tehnoloogilised lahendused: kõnesüntees ja tuvastus, morfoloogiline, süntaktiline ja semantiline analüüs, masintõlge, keeleõppevahendid, jne Keeleressursid: kõne- ja tekstikorpused, elektroonsed sõnastikud ja andmebaasid, ressursside loomise ja haldamise vahendid 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 8

Keeled ja tehnoloogia Gutenbergi efekt: trükikunst suretas välja keeled, mille puhul ei olnud olemas kirjakeelt IT mõju: keeli, millel puudub arvutitugi, ootab ees digitaalne hääbumine Kultuurkeeled on olemas emakeelne piibel (~2400 keelt) Tehnoloogiliselt jätkusuutlikud keeled on olemas keele masintöötluse tehnoloogia (~ 1-2%) Prognoos: 100 aasta pärast on maailmas kasutusel vaid 50-10% täna eksisteerivatest keeltest 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 9

Mitmekeelsus Euroopa Liidus EL on olemuslikult mitmekeelne kõik keeled on võrdsed Digitaalne lõhe: suured keeled majanduslikult huvipakkuvad keeled väikesed keeled: väike kõnelejate arv piiratud tehnoloogiline tugi majanduslikult perspektiivitud 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 10

Mitmekeelsus Euroopa Liidus 27 liikmesriiki, 23 ametlikku keelt / 506 keelepaari Euroopa Komisjonis töötab 2500 tõlki aastas tõlgitakse 1,8 miljonit lk Täieliku mitmekeelsuse tagamiseks oleks vaja 8500 tõlki Kui palju läheb see meile maksma? 1,1 miljardit eurot aastas = 2,2 eurot iga EL kodaniku kohta 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 11

Mitmekeelsus Euroopa Liidus Puudub spetsiifiline programm mitmekeelsuse tehnoloogiliseks arenduseks Ei jätku ressursse kõigi EL ametlike keelte tehnoloogilise toe arendamiseks Kus on väljapääs? Ainult üks ametlik keel inglise keel Rahvuslikud/riiklikud programmid + rahvusvaheline koostöö 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 12

Eesti keel ja tehnoloogia Riiklik programm Eesti keele keeletehnoloogiline tugi (2006-2010) Riiklik programm Eesti keeletehnoloogia 2011 2017 Keeletehnoloogia programmide eesmärk: luua KT arenduseks vajalikud keeleressursid ja keelespetsiifilised tehnoloogilised lahendused 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 13

Keeletehnoloogia riiklik programm (2006-2010) Kokku 24 projekti: Kõnekorpused emotsionaalne kõne, spontaanne kõne, aktsendiga kõne, dialoogid Tekstikorpused kirjakeele korpus, mitmekeelsed paralleelkorpused, korpusepäringud Tehnoloogilised lahendused kõnetuvastus, kõnesüntees, masintõlge, sõnastike töövahendid, infootsing, süntaktiline ja semantiline analüüs, dialoogimudelid http://www.keeletehnoloogia.ee/projektid 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 14

Finantseerimine 2006 2010 2006 2007 2008 2009 2010 Projektitaotluste arv 22 22 23 24 24 Finantseeritud projektide arv Kogusumma, MEEK (MEUR) 18 20 23 23 24 7,3 (0,47) 7,1 (0,46) 13,4 (0,86) 12,9 (0,83) 11,8 (0,75) Kokku 2006-2010: ~ 53 MEEK (~ 3,4 MEUR) 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 15

Finantseerimine 2006 2010 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 16

Keeletehnoloogia riiklik programm (2011-2017) Meede 1: Tarkvaraprototüüpe loovad uurimis- ja arendusprojektid 10 projekti: Kõne ja teksti emotsionaalsuse statistilised mudelid (EKI) Kõnesünteesiliidesed (EKI) Leksikograafi töökeskkonna modifitseerimine (EKI) E-keelenõu (EKI) Eestikeelse dialoogi pragmaatika analüsaator (TÜ) Vahendid teksti mitmekihiliseks märgendamiseks (TÜ) Semantika vahendid eesti keelele (TÜ) Mallipõhine faktituletus tekstikorpustest (TÜ) Kõnetuvastus (TTÜ KübI) Audiovisuaalse kõnesünteesi prototüüp (TTÜ KübI) 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 17

Keeletehnoloogia riiklik programm (2011-2017) Meede 2: Keeleressursse loovad projektid 9 projekti: Eesti Wordnet'i täiendamine (TÜ) Eesti keele spontaanse kõne foneetilise korpuse arendused (TÜ) Autentse meditsiinikeele korpuse alusel radioloogia elektroonse piltsõnastiku koostamine (TÜ) Suulise eesti keele audiovisuaalse suhtluskorpuse kogumine ja päringusüsteemi arendamine (TÜ) Uued ressursid masintõlkes (TÜ) Kõne- ja multi-modaalsed korpused (TTÜ KübI) Võru ja seto keelekorpus (Võru Instituut) Eesti-prantsuse paralleelkorpus (EPLÜ) Eesti avatud paralleelkorpus (Tilde Eesti OÜ) 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 18

Keeletehnoloogia riiklik programm (2011-2017) Meede 3: Eesti Keeleressursside Keskus Keskne depositoorium keelekorpuste ja -tarkvara arhiveerimiseks, haldamiseks ja kõigile huvilistele kättesaadavaks tegemiseks http://www.keeleressursid.ee EKRK: loodud TÜ, TTÜ KübI ja EKI konsortsiumina teaduse tuumiktaristu objekt üle-euroopalise konsortsiumi CLARIN-ERIC liige 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 19

Keeletehnoloogia riiklik programm (2011-2017) Meede 4: Integreeritud keeletarkvara ja selle rakendused 2 projekti: Subtiitrite helindamise ja tele-eetrisse edastamise tarkvaralahendus (EKI, ERR, EPL) Eestikeelsete dialoogsüsteemide loomise raamistik (TÜ, Hambaravikliinik ja TÜ ajaloo muuseum) 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 20

Keeletehnoloogia riiklik programm (2011-2017) Meede 5: Tellitavad projektid Tellija: juhtkomitee või avaliku sektori asutus 2012.a konkurss vabavaralise morfoloogiatarkvara arendamiseks http://www.keeletehnoloogia.ee/ekt-projektid 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 21

Finantseerimine 2011 2017 2011 2012 2013 2014 2015 2016 2017 Projektitaotluste arv 21 21 25 27 28 29 30 Finantseeritud 18 19 21 22 23 24 25 projektide arv Kogusumma, MEUR 0,75 0,64 0,72 0,75 0,75 0,75 0,75 Kokku 2011-2017: ~ 5,1 MEUR Võrdluseks: Prantsusmaa Quaero-programm(2008-2013): 200 MEUR 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 22

Finantseerimine 2011 2013 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 23

Reaalsus lähiaastatel (?) Tere! Eestikeelse kõne tuvastus Eestikeelse kõne süntees Eesti <-> Inglise MT 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 24

Näiteid prototüüpidest Eesti <--> inglise masintõlge http://masintolge.ut.ee/ http://translate.google.com/ Thomas J. Watson: Ma arvan, et maailmas on turgu võib-olla ainult viie arvuti jaoks. TÜ: I think the world is maybe the market only five for the computer Google: I think the world is maybe the only market for the five computer 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 25

Näiteid prototüüpidest Eesti <--> inglise masintõlge http://masintolge.ut.ee/ http://translate.google.com/ Ken Olson: Ma ei näe mingit põhjust, miks inimene peaks endale koju arvutit tahtma. TÜ: I see no reason why the person should get yourself home computer want Google: I do not see any reason why a person should want your home computer 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 26

Näiteid prototüüpidest Kõnesüntees ortograafilise teksti teisendamine inimkõneks Sünteesidemo: http://heli.eki.ee/koduleht/ Rakendused: Veebisõnastike helindamisliides Nutitelefoni rakendused Heliraamatute genereerija moodulid Subtiitrite helindamine 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 27

Näiteid prototüüpidest Kõnetuvastus kõne teisendamine kirjalikuks tekstiks Rakendused: Pikkade kõnesalvestuste transkribeerimise veebiteenus Reaalajalise kõnetuvastuse veebiteenus Kõnesalvestuste brauser Mobiilirakendused: Kõnele Arvutaja Diktofon Inimesed Kõnetuvastus radioloogidele 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 28

Näiteid prototüüpidest Pikkade kõnesalvestuste transkribeerimise veebiteenus http://bark.phon.ioc.ee/webtrans/ Kahekümne neljandal ja kahekümne viiendal aprillil toimub Väike- Maarjas rahvusvaheline konverents millega tähistatakse kahekümne viie aasta möödumist Ferdinand Johann viide mõni keeleauhinna asutamisest toimuvast teeb veebiülekanded Art. ülikooli multimeediakeskus seda saab jälgida kahekümne neljandal aprillil alates kella üheteistkümnest ja kahekümne viiendal aprillil alates kella üheksast. 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 29

Näiteid prototüüpidest Kõnesalvestuste brauser http://bark.phon.ioc.ee/tsab Üle 3000 automaatselt transkribeeritud raadiosaate aastast 2010 Tekst ja heli sünkroonis vaadatav/kuulatav Otsimisvõimalus saadetest märksõna põhjal 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 30

Eesti KT Euroopas META-NET: Euroopa põhiliste keelte tehnoloogilise toe arengu võrdlus (2012) http://www.meta-net.eu/whitepapers/overview Võrdluses 30 keelt Eesti esindaja META-NETis Tartu ülikool 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 31

Kõnetöötlus 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 32

Masintõlge 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 33

Tekstianalüüs 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 34

Kõne- ja tekstikorpused 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 35

Tehnoloogilise toe pingerida inglise hispaania, prantsuse hollandi, itaalia, saksa tšehhi, poola, ungari portugali, soome, katalaani, rootsi baski, bulgaaria, galiitsia, kreeka, norra, slovaki, sloveeni, taani, rumeenia eesti, serbia iiri, horvaadi islandi, leedu, läti, malta 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 36

Kokkuvõtteks META-NETi hinnang eesti keele tehnoloogilisele toele: ettevaatlikult optimistlik Parem kui läti ja leedu keele tehnoloogiline tugi tänu stabiilsele rahastusele Keeletehnoloogia RP idee on õige IT-arendajatel on tekkinud huvi prototüüpide kasutamiseks Rohkem ressurssi on vaja uurijate-arendajate järelkasvu koolitamiseks Keeletehnoloogia ei saa valmis aastal 2017 Eesti keele digitaalset hääbumist pole lähiaastatel põhjust karta 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 37

Lõpetuseks Tänu keeletehnoloogia arendamisele on eesti keel elujõuline ka saja aasta pärast! 24.04.2013 Emakeelne Eesti, emakeelne Euroopa II 38