Language technology resources for Estonian text summarization Kaili Müürisep University of Tartu Institute of Computer Science

Seotud dokumendid
EESTI KUNSTIAKADEEMIA

Slide 1

Microsoft Word - EVS_ISO_IEC_27001;2014_et_esilehed.doc

CSS juhend

Väljaandja: Riigikogu Akti liik: välisleping Teksti liik: algtekst Avaldamismärge: RT II 1999, 15, 92 Kohtulikult karistatud isikute üleandmise Euroop

Funktsionaalne Programmeerimine

Millest mõtleb depressioon (ja kuidas temast aru saada?) Maarja-Liisa Oitsalu kliiniline psühholoog

Pealkiri

magistriöö.doc

HAJUSSÜSTEEMID HAJUSSÜSTEEMID Kaugprotseduurid IDL kompileerimine ONCIDLnäide CORBAIDLnäide MIDLnäide DCERPCmuidomadusi XML-RPC JSON-RPC REST document

PowerPointi esitlus

EESTI STANDARD EVS-EN 1790:1999 This document is a preview generated by EVS Teemärgistusmaterjalid. Kasutusvalmid teekattemärgised Road marking materi

LISA KINNITATUD õppeprorektori korraldusega nr 134 MUUDETUD õppeprorektori korraldusega nr 76 Võõrkeeleoskuse tõendamise tingimu

SQL

Sissejuhatus Informaatikasse Margus Niitsoo

EBSCO täistekstiandmebaaside kasutamine Otsingu sooritamiseks: 1. Logi sisse 2. Vali EBSCOhost Web 3. Seejärel vali andmebaas, milles soovid otsingut

Pealkiri

E-õppe ajalugu

Ppt [Read-Only]

EESTI STANDARD EVS-EN :2000 This document is a preview generated by EVS Terastraat ja traattooted piirete valmistamiseks. Osa 4: Terastraadist

Slide 1

Microsoft PowerPoint - loeng.ppt

Inglise keele ainekava 9.klassile Kuu Õpitulemused Õppesisu Kohustuslik hindamine September 1. Kasutab Present Simple, Present Mina ja teised. Inimese

Kuidas hoida tervist töökohal?

Pöördumine Eesti Valitususe ja Europa Nõukogu Inimõiguste Komissari hr. Hammarbergi poole Appeal to the Government of the Republic of Estonia and the

Võrguinverterite valik ja kasutusala päikeseelektrijaamades Robert Mägi insener

Microsoft PowerPoint - MKarelson_TA_ ppt

Microsoft Word - Lisa 4_Kohtususteemide vordlus

01b-Schedule for line, version

Microsoft Word - 23jaan07.doc

PowerPoint Presentation

LV_26_neti

Microsoft PowerPoint _04_20_Teadusest_ATI_tudengitele.pptx

Microsoft Word - VV191_lisa.doc

III OSA. RAADIOSAGEDUSALA 3600 MHz 1000 GHz Rahvusvahelise Telekommunikatsiooni Liidu konventsiooni ja põhikirja täiendavate raadioeeskirjadega määrat

Tartu Ülikool

Väljaandja: Vabariigi Valitsus Akti liik: välisleping Teksti liik: algtekst Jõustumise kp: Avaldamismärge: RT II 2005, 31, 103 Eesti Vabari

Jenny Papettas

PowerPointi esitlus

Microsoft Word - Referaat.docx

01b-Schedule for line, version

Scanned Image

eelnõu.docx

Microsoft Word - C035736e.doc

Eelnõu lisa_3.docx

KUULA & KORDA INGLISE KEEL 1

Skriptimiskeeli, mida ei käsitletud Perl Python Visual Basic Script Edition (VBScript) MS DOS/cmd skriptid Windows PowerShell midagi eksootilisemat: G

Kommunikatsiooniteenuste arendus IRT0080 Loeng 5/2013 Satelliitside teenused Avo Ots telekommunikatsiooni õppetool TTÜ raadio- ja sidetehnika instituu

Vabariigi Valitsuse 18. detsembri a määrus nr 178 Kõrgharidusstandard Lisa 3 (muudetud sõnastuses) Õppekavagrupid, nendes kõrgharidustaseme õpet

Väljaandja: Vabariigi Valitsus Akti liik: välisleping Teksti liik: algtekst Jõustumise kp: Avaldamismärge: RT II 2009, 22, 55 Eesti Vabarii

Sotsiaalteaduste õppekavagrupi hindamisotsus Tallinna Tehnikaülikool 15/09/2016 Eesti Kõrg- ja Kutsehariduse Kvaliteediagentuuri kõrghariduse hindamis

Inglise keele ainekava 5.klassile Kuu Õpitulemused Õppesisu Kohustuslik hindamine September 1. Räägib loomadest. Vaba aeg. Animals (Wild life 2. Kuula

Microsoft PowerPoint IntroRiskAnal.ppt

Piletisüsteemi Info ja klienditugi: AS Ridango tasuta infotelefon ( 24 tundi) eelkõige bussikaartide sulgemine ja rikked, kuid ka muu nõuanne

10. peatükk Perevägivald See tund õpetab ära tundma perevägivalda, mille alla kuuluvad kõik füüsilise, seksuaalse, psühholoogilise või majandusliku vä

Tallinna Järveotsa Lasteaed Peokava Tere, Vastlapäev! Autor: Olga Carjova, Tallinna Järveotsa Lasteaia muusikaõpetaja 1 Tallinn, a. Tallinna Jär

Pärnakad tõid aastanäitusele ligemale 100 teost - Paberleht - Pärnu Postimees

Operatsioonisüsteemi ülesanded

Sissejuhatus GRADE metoodikasse

Tiia Salm 2011 Online kirjastus CALAMÉO Calameo kujutab endast on-line kirjastust, mis võimaldab oma dokumente avaldada e-raamatuna tasuta. Failid (Pd

Share wave 5: 50+ in Europe - Coverscreenwizard version IF SKIP_INTROPAGE = 0 CoverscreenWizardIntroPage Järgnev sissejuhatus sisaldab üldküsimu

Väljaandja: Riigikogu Akti liik: välisleping Teksti liik: algtekst Avaldamismärge: RT II, , 2 Rahvusvahelise Kriminaalkohtu Rooma statuudi m

Vabariigi Valitsuse 18. detsembri a määruse nr 178 Kõrgharidusstandard lisa 3 (muudetud sõnastuses) Õppekavagrupid õppevaldkondades, nendes kõrg

RN aastaraamat 2008.indd

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKATEADUSKOND Arvutiteaduse instituut Infotehnoloogia õppekava Lauri Tammeveski Eestikeelse jalgpalli-alase tekstik

Microsoft PowerPoint - MihkelServinski_rahvastikust.pptx

Tunnustatud partner teadliku ja õnneliku teadmusühiskonna arendamisel Anneli Kannus EHL Tartu Tervishoiu Kõrgkool Sügiskonverents Rektor

Leheküljenumbrite lisamine

Vabariigi Valitsuse 18. detsembri a määruse nr 178 Kõrgharidusstandard lisa 3 (muudetud sõnastuses) [RT I , 17 jõust ] Õppe

MergedFile

REQUEST FOR AN ASSIGNMENT OF LEI (fond) LEI KOODI MÄÄRAMISE TAOTLUS (fond) 1. FUND DATA / FONDI ANDMED: Legal Name / Ametlik nimi: Other Fund Names /

2015_KA1_NV_naidistaotlusvorm_inglise keeles_v2.pdf


tallinn arvudes 2003.indd

2015_KA1_NV_naidistaotlusvorm_inglise keeles_v2.pdf

BIM360 ja RealityCapture

Markina

Avatud ja läbipaistev e-riik: Ees6 kui rajaleidja Andrus Kaarelson RIA peadirektori asetäitja riigi infosüsteemi alal 10. oktoober 2017

Väljavõte:

Language technology resources for Estonian text summarization Kaili Müürisep University of Tartu Institute of Computer Science

Outline Estonian language resources First experiment for summarization EstSum ver. 0.1

Institutions Institute of Estonian Language: dictionaries, morphology Institute of Cybernetics at TTU: text speech University of Tartu: corpus research, morphological analysis, parsing (CG), semantic disambiguation and WordNet, modeling dialogs, research on transcribed speech

Resources Corpora: millions of words Morphologically disambiguated and syntactically annotated corpora: 300.000 and 100.000 words respectively

Tools Morphological analyzer: > 99% get correct analysis, > 45% more than 1analysis Constraint Grammar parser: Morphological disambiguator: 85 90% become unambiguos, 2% errors Syntactic analyzer: 83 90% unambiguous, 2 4% errors

AutoSum Andres Lippur's bachelor thesis (2000) C program Extracts relevant sentences Uses full syntactic analysis Subjects and objects have extra scores Black list of words and POSes Words in title have extra scores Frequency of words First sentences in paragraphs Last sentence of article No methodical evaluation

EstSum ver 0.1 Experiment from 2001 (Institute of Cybernetics) Extracts relevant sentences from web version of newspaper Postimees Perl program Units are words, not sentences 3 modules: Html to sgml translator Sentence splitter Sentence extractor

HTML to SGML Webmaster changes his style after every half year Ugly html code Impossible to distinguish headers, authors, captions etc. This module was also used in another project

HTML to SGML example <font face="verdana, Arial" size="3"> <b>looduskaitsjad uinutasid küla hirmutanud karu </b></font> <font face="verdana, Arial" size="2" color="#cc0000"></font> <! <img hspace=6 vspace=6 border="" src="http://pm.inspiral.net/postimees/failid/kopter.jpg"> > <br><font face="verdana, Arial" size="2"><table width=170 align="right"><tr><td><br><font size=1> Alles viies annus uimasteid ja lihaseid halvavat ainet sundis visalt ärkvel püsinud karu alla andma </td></tr></table> <B>Viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.<p> </B><P> Marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö <div1 type='unknown'><head>looduskaitsjad uinutasid küla hirmutanud karu</head> <p>pildi allkiri: Alles viies annus uimasteid ja lihaseid halvavat ainet sundis visalt ärkvel püsinud karu alla andma</p> <p><hi rend='bold'>viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.</hi></p> <p>marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö

Sentence splitter <div1 type='unknown'><head><s>looduskaitsjad uinutasid küla hirmutanud karu</s></head> <p> <s>pildi allkiri: Alles viies annus uimasteid ja lihaseid halvavat ainet sundis visalt ärkvel püsinud karu alla andma</s> </p> <p> <s><hi rend='bold'>viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.</hi></s> </p> <p> <s>marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö läbi samas ringi ja loom leiti hommikul siitsamast metsast.</s> </p>

Extractor W(s)=αP(s)+βF(s)+γK(s) P(s) position based score of sentence s First sentence of article First sentence of paragraph excluding captions 2 nd and 3 rd sentence of paragraph F(s) format based score of s Bold gives extra bonus! and? in the sentence give penalty score Quatation marks give penalty score K(s) key word score of s (word forms that are frequent in text but not so frequent in general list get extra bonus)

Extractor example <div1 type='unknown'><head><s>looduskaitsjad uinutasid küla hirmutanud karu</s></head> Min score. 4.14064398 ################## <p> 2. p=9.523810 f=12.745098 w=4.957299 s=8.984648 <s><hi rend='bold'>viljandimaa keskkonnateenistuse ja Nigula looduskaitseala töötajatel kulus neljapäeval tunde, et kinni püüda ja Pärnumaa metsasügavustesse viia karu, kes oli päev varem Marna küla elanikke hirmutanud.</hi></s> </p> <p> 3. p=4.761905 f=4.901961 w=4.628001 s=4.716316 <s>marna küla Lohu talu peremees Vahur rääkis, et eelmisel õhtul küla piiranud karu liikus öö läbi samas ringi ja loom leiti hommikul siitsamast metsast.</s> </p> <p> 4. p=4.761905 f=4.901961 w=3.012578 s=4.183227 <s>hommikul üritati teda metsast välja ajada ja tehti tema pihta esimene uinutilask.</s>

No evaluations Extractor problems Score values are still preliminary and intuitive Word frequencies are calculated on word forms, not roots (14 grammatical cases *2) Missing pronoun resolution etc. Cohesion problems