INFORMATSIOONITEOORA. Jüri Lember

Seotud dokumendid
Matemaatiline analüüs IV 1 3. Mitme muutuja funktsioonide diferentseerimine 1. Mitme muutuja funktsiooni osatuletised Üleminekul ühe muutuja funktsioo

vv05lah.dvi

Polünoomi juured Juure definitsioon ja Bézout teoreem Vaadelgem polünoomi kus K on mingi korpus. f = a 0 x n + a 1 x n a n 1 x

lvk04lah.dvi

IMO 2000 Eesti võistkonna valikvõistlus Tartus, aprillil a. Ülesannete lahendused Esimene päev 1. Olgu vaadeldavad arvud a 1, a 2, a 3,

Matemaatiline analüüs III 1 4. Diferentseeruvad funktsioonid 1. Diferentseeruvus antud punktis. Olgu funktsiooni f : D R määramispiirkond D R selles p

raamat5_2013.pdf

Relatsiooniline andmebaaside teooria II. 6. Loeng

19. Marek Kolk, Kõrgem matemaatika, Tartu Ülikool, Arvridade koonduvustunnused Sisukord 19 Arvridade koonduvustunnused Vahelduvat

Ruutvormid Denitsioon 1. P n Ütleme, et avaldis i;j=1 a ijx i x j ; kus a ij = a ji ; a ij 2 K ja K on korpus, on ruutvorm üle korpuse K muutujate x 1

ITI Loogika arvutiteaduses

prakt8.dvi

Osakogumite kitsendustega hinnang Kaja Sõstra 1 Eesti Statistikaamet Sissejuhatus Valikuuringute üheks oluliseks ülesandeks on osakogumite hindamine.

Tartu Ülikool Matemaatika-informaatikateaduskond Puhta Matemaatika Instituut Algebra õppetool Riivo Must Mõned katsed üldistada inversseid poolrühmi M

12. Marek Kolk, Kõrgem matemaatika, Tartu Ülikool, Algfunktsioon ja määramata integraal Sisukord 12 Algfunktsioon ja määramata integraal 1

Sügis 2018 Kõrgema matemaatika 2. kontrolltöö tagasiside Üle 20 punkti kogus tervelt viis üliõpilast: Robert Johannes Sarap, Enely Ernits, August Luur

Matemaatilised meetodid loodusteadustes. I Kontrolltöö I järeltöö I variant 1. On antud neli vektorit: a = (2; 1; 0), b = ( 2; 1; 2), c = (1; 0; 2), d

Treeningvõistlus Balti tee 2014 võistkonnale Tartus, 4. novembril 2014 Vastused ja lahendused 1. Vastus: 15, 18, 45 ja kõik 0-ga lõppevad arvud. Olgu

Word Pro - diskmatTUND.lwp

Imbi Traat, Natalja Lepik (Tartu Ülikool), 2013 E-kursuse Bayesi statistika Markovi ahelatega materjalid Aine maht 6 EAP Imbi Traat, Natalja Lepik (Ta

Diskreetne matemaatika I Kevad 2019 Loengukonspekt Lektor: Valdis Laan 20. juuni a.

Antennide vastastikune takistus

Neurovõrgud. Praktikum aprill a. 1 Stohhastilised võrgud Selles praktikumis vaatleme põhilisi stohhastilisi võrke ning nende rakendust k

Andmed arvuti mälus Bitid ja baidid

7 KODEERIMISTEOORIA 7.1 Sissejuhatus Me vaatleme teadete edastamist läbi kanali, mis sisaldab müra ja võib seetõttu moonutada lähteteadet. Lähteteade

MATEMAATILINE ANALÜÜS I. ESIMESE KONTROLLTÖÖ NÄITEÜLESANDED (1) Leida funktsiooni y = sin x + ln(16 x 2 ) määramispiirkond. (2) Leida funktsiooni y =

Microsoft PowerPoint - loeng2.pptx

Mittekorrektsed ülesanded 2008

Praks 1

Microsoft Word - Sobitusahelate_projekteerimine.doc

Microsoft PowerPoint - Loeng2www.ppt [Compatibility Mode]

Microsoft Word - Errata_Andmebaaside_projekteerimine_2013_06

Matemaatiline maailmapilt MTMM Terje Hõim Johann Langemets Kaido Lätt 2018/19 sügis

DVD_8_Klasteranalüüs

Mining Meaningful Patterns

Andmebaasid, MTAT loeng Normaalkujud

TARTU ÜLIKOOL Arvutiteaduse instituut Informaatika õppekava Karl Riis Bayesi isotoonilise kalibreerimise algoritm ja selle optimeerimine Bakalaureuset

VKE definitsioon

KM 1 Ülesannete kogu, 2018, s

loeng7.key

Diskreetne matemaatika I praktikumiülesannete kogu a. kevadsemester

ma1p1.dvi

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ann-Mari Koppel Determinatsioonikordaja ja prognoosikordaja Bakala

PALMIKRÜHMAD Peeter Puusempa ettekanded algebra ja geomeetria õppetooli seminaril 11., 18. ja 25. jaanuaril a. 1. Palmikud ja palmikrühmad Ajalo

elastsus_opetus_2013_ptk2.dvi

(Microsoft Word - Matsalu Veev\344rk AS aktsion\344ride leping \(Lisa D\) Valemid )

Image segmentation

I Generaatori mõiste (Java) 1. Variantide läbivaatamine Generaator (ehk generaator-klass) on klass, milles leidub (vähemalt) isendimeetod next(). Kons

Funktsionaalne Programmeerimine

Microsoft Word - 56ylesanded1415_lõppvoor

efo03v2pkl.dvi

Sideteooria-loeng 01 - kanalimudelid, statistika

QUANTUM SPIN-OFF - Experiment UNIVERSITEIT ANTWERPEN

DIGITAALTEHNIKA DIGITAALTEHNIKA Arvusüsteemid Kümnendsüsteem Kahendsüsteem Kaheksandsüsteem Kuueteistkü

XV kursus

Infix Operaatorid I Infix operaatorid (näiteks +) ja tüübid (näiteks ->) kirjutatakse argumentide vahele, mitte argumentide ette. Näiteks: 5 + 2, 2*pi

Komisjoni delegeeritud määrus (EL) nr 862/2012, 4. juuni 2012, millega muudetakse määrust (EÜ) nr 809/2004 seoses teabega nõusoleku kohta prospekti ka

pkm_2010_ptk6_ko_ja_kontravariantsus.dvi

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKATEADUSKOND MATEMAATILISE STATISTIKA INSTITUUT Astrid Haas Üldistatud lineaarne segamudel ESM-uuringu andmetele M

Mida me teame? Margus Niitsoo

VL1_praks6_2010k

Statistikatarkvara

elastsus_opetus_2005_14.dvi

6

ANOVA Ühefaktoriline dispersioonanalüüs Treeningu sagedus nädalas Kaal FAKTOR UURITAV TUNNUS Mitmemõõtmeline statistika Kairi Osula 2017/kevad

Füüsika

3D mänguarenduse kursus (MTAT ) Loeng 3 Jaanus Uri 2013

Saksa keele riigieksamit asendavate eksamite tulemuste lühianalüüs Ülevaade saksa keele riigieksamit asendavatest eksamitest Saksa keele riigi

lcs05-l3.dvi

Word Pro - digiTUNDkaug.lwp

Eesti koolinoorte LIII matemaatikaolümpiaad 28. jaanuar 2006 Piirkonnavoor Hindamisjuhised Lp hindaja! 1. Juhime Teie tähelepanu sellele, et alljärgne

Matemaatika ainekava 8.klass 4 tundi nädalas, kokku 140 tundi Kuu Õpitulemus Õppesisu Algebra (65 t.) Geomeetria (60 t.) Ajavaru kordamiseks (15 õppet

Microsoft Word - Toetuste veebikaardi juhend

Word Pro - digiTUNDkaug.lwp

VRG 2, VRG 3

(Tõrked ja töökindlus \(2\))

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Võrgupeo külastaja uurimine Andmeanalüüs I projekt Koostajad: Urma

EDL Liiga reeglid 1. ÜLDSÄTTED 1.1. EDL Liiga toimub individuaalse arvestuse alusel, kus mängijad on jagatud hooaja EDL Liiga tulemuste põhj

Tehniline andmeleht Sadulventiilid (PN 16) VRG 2 2-tee ventiil, väliskeermega VRG 3 3-tee ventiil, väliskeermega Kirjeldus Ventiilid on kasutatavad ko

Kontrollijate kommentaarid a. piirkondliku matemaatikaolümpiaadi tööde kohta 7. klass (Elts Abel, Mart Abel) Test Ül. 6: Mitmes töös oli π aseme

Praks 1

PowerPoint Presentation

Segamudelid2010.pdf

Scala ülevaade 1 Meetodid, muutujad ja väärtused. Süntaks 2 Lihtsad tüübid ja väärtused. 3 OOP, case-klassid ja mustrisobitus. 4 Puhta Scala väärtusta

Ventilatsioon toidukäitlemise ruumides

1 / loeng Tekstitöötlus Sisend/väljund Teksti lugemine Sõnad

PIDEVSIGNAALIDE TÖÖTLEMINE

Microsoft Word - QOS_2008_Tallinn_OK.doc

Praks 1

Sissejuhatus mehhatroonikasse MHK0120

Microsoft Word - essee_CVE ___KASVANDIK_MARKKO.docx

Solaariumisalongides UVseadmete kiiritustiheduse mõõtmine. Tallinn 2017

Statistiline andmetöötlus

Fyysika 8(kodune).indd

Õppekava arendus

EELNÕU

Statistiline andmetöötlus 1997

G OSA A VARIANT RESPONDENDILE ISE TÄITMISEKS

Väljavõte:

INFORMATSIOONITEOORA Loengukonspekt ja ülesanded kevad 208 Jüri Lember

Kirjandus:. T.M. Cover, J.A. Thomas "Elements of information theory", Wiley, 99 ja 2006; 2. Yeung, Raymond W. "A first course of information theory", Kluwer, 2002; 3. Te Sun Han, Kingo Kobayashi "Mathematics of information and coding", AMS, 994; 4. Csiszar, I., Shields, P. "Information theory and statistics : a tutorial", MA 2004; 5. Mackay, D. "Information theory, inference and learning algorithms", Cambridge 2004; http://www.inference.phy.cam.ac.uk/itprnn/book.pdf 6. McEliece, R. "Information and coding", Cambridge 2004; 7. Gray, R. "Entropy and information theory", Springer 990; 8. Gray, R. "Entropy and information theory", Springer 990; 9. Gray, R. "Source coding theory", Kluwer, 990; 0. Shields, P. "The ergodic theory of discrete sample paths", AMS 996;. Dembo, A., Zeitouni, O. "Large deviation techniques and Applications", Springer 200. 2. Konspekt: https://courses.ms.ut.ee/208 2

Entroopia ja informatsioon. Entroopia.. Definitsioon ja omadused Vaatleme diskreetset juhuslikku suurust X jaotusega P. Olgu X = {x, x 2,...} ülimalt loenduv hulk, mis sisaldab juhusliku suuruse X võimalikke väärtusi. Tähistame p i := P(X = x i ) = P (x i ), s.t. p i on tõenäosus, et X võtab väärtuse x i. Jaotus P on üheselt määratud paaridega {(x i, p i )}, sest iga hulga A X korral P (A) = P(X A) = P (x). Tihti esitatakse selline jaotus tabelina i:x i A p i = x A x x 2 x 3... p p 2 p 3..., kusjuures x i x j, kui i j ja p i 0. Edaspidi ütleme, et jaotus (tõenäosusmõõt) P on antud hulgal X. Paneme tähele, et X võib olla suvaline hulk, mitte ilmtingimata reaalarvude alamhulk. Näiteks võib hulk X olla tähestik, s.t. X = {a, b,..., y}. Sellisel juhul on X juhuslik täht. Informatsiooniteoorias nimetataksegi hulka X tihti tähestikuks (alphabet). Jaotuse P kandja (support) X P on tähed, mille korral P (x) > 0. Seega X P := {x : P (x) > 0}. Tuletame meelde, et kui g : X R on suvaline funktsioon, mis rahuldab tingimust pi g(x i ) <, siis Eg(X) = i p i g(x i ) = x X P (x)g(x) = x X P P (x)g(x) (.) NB! Alljärgnevas tähistame log := log 2 ning lepime kokku, et 0 log 0 = 0. Def. Juhusliku suuruse X (jaotuse P ) entroopia (entropy) H(X) on H(X) = p i log p i = P (x) log P (x) = P (x) log P (x). x X x X P 3

Märkused: H(X) sõltub vaid juhusliku suuruse X jaotusest P. Seetõttu tähistame entroopiat H(X) ka H(P ). Seose (.) tõttu H(X) = E ( log P (X) ) = E log P (X). Et log p i 0, on p i log p i mittenegatiivsete liikmetega rida. Sellise rea summa on alati defineeritud, kuid võib olla lõpmatu. Seega 0 H(X), kusjuures H(X) = 0 parajasti siis, kui X on peaaegu kindlasti konstant. Entroopia ei sõltu tähestikust X. Tõepoolest, olgu jaotused P ja Q antud tabelitega P : x x 2 x 3... p p 2 p 3... Q : y y 2 y 3... p p 2 p 3... Siis H(P ) = H(Q). Et oluline on vaid tõenäosuste vektor (p, p 2,...), kasutame tihti tähistust H(p, p 2,...). Põhimõtteliselt võib entroopia defineerida ka mõne muu logaritmi abil. Logaritmi log b abil defineeritud entroopiat tähistame H b. Seega H b (X) = p i log b p i = x X P (x) log b P (x). Et log b p = log b a log a p, siis H b (X) = (log b a)h a (X), millest H b (X) = (log b 2)H(X) ning H e (X) = (ln 2)H(X). Informatsiooniteoorias kasutatakse harilikult kahendlogaritmi abil defineeritud entroopiat. Seda mõõdetakse bittides. Naturaallogaritmi kaudu defineeritud entroopiat mõõdetakse nattides, kümnendlogaritmi kaudu defineerituid entroopiat mõõdetakse dittides. Jaotuse P entroopia ei muutu, kui hulka X laiendada elementidega, mille tõenäosus on 0. Seega, kui X on suvaline hulk, mis sisaldab hulka X, siis kehtib H(X) = x X P (x) log P (x). (.2) 4

Entroopia H(X) mõõdab juhusliku suuruse X "keskmist juhuslikkust". Mida suurem on entroopia, seda "juhuslikum" on X. Konstant ei ole juhuslik, seetõttu on konstandi entroopia 0. Entroopiat võib ka interpreteerida kui informatsioonihulka, mida juhusliku suuruse väärtuse teadasaamine meile annab. Mida "juhuslikum" on X, seda vähem oskame me ära arvata juhusliku suuruse väärtust (juhusliku katse tulemust) ning seda enam informatsiooni selle väärtuse (katse tulemuse) teadasaamine meile annab. Esmakordselt defineeris entroopia ameerika matemaatik C. Shannon oma 948.-l aastal ilmunud teedrajavas artiklis "A mathematical theory of communacation". Seetõttu nimetatkse entroopiat tihti ka Shannoni entroopiaks. Näited: Olgu X = {0, }, p = P(X = ). Seega on X Bernoulli p-jaotusega juhuslik suurus, X B(, p). Leiame H(X) = p log p ( p) log( p) =: h(p). Funktsiooni h(p) nimetatakse binaarseks entroopiafunktsiooniks. Funktsioon h(p) on nõgus, punkti suhtes sümmeetriline ning saavutab maksimumi juhul, kui 2 p =. Siis 2 h( 2 ) = 2 log 2 2 log = log 2 =. 2 Seega on (nihketa) mündi viske entroopia. Teadmine, kas sellise mündi viskel tuli kull või kiri, annab meile täpselt biti informatsiooni (sellest tulenevalt ongi entroopia defineerimisel võetud aluseks kahendlogaritm). Kui kulli tulemise tõenäosus p on väiksem arvust, siis on entroopia väiksem kui. See ühtib intuitsiooniga: 2 mida väiksem on kulli tulemise tõenäosus, seda "mittejuhuslikum" on X ning seda "kergem" on mündiviske tulemust ära arvata. Sellevõrra vähem informatsiooni mündivise endas kätkeb. 2 Vaatleme jaotusi P : a b c d e 2 4 8 6 6 Q : a b c d 4 4 4 4. Leiame H(P ) = 2 log 2 4 log 4 8 log 8 6 log 6 6 log 6 = 2 + 2 4 + 3 8 + 4 6 + 4 6 = 5 8 H(Q) = log 4 = 2. Seega on jaotus P "vähem juhuslik", kuigi tema aatomite arv on suurem. 5

..2 Entroopia aksiomaatiline definitsioon On kerge veenduda, et entroopial on nn. grupeerimisomadus H(p, p 2, p 3,...) = H(Σ k i=p i, p k+, p k+2,...) + ( ) ( Σ k p p ) k i=p i H Σ k i= p,..., i Σ k i= p i Omaduse (.3) tõestus on ülesanne 2. (.3) Grupeerimisomadus on teatavas mõttes igati loomulik juhuslikkuse "aditiivsuse" omadus, mistõttu on loogiline eeldada, et iga funktsioon f(p, p 2,...), mis mõõdab juhuslikkust, peaks seda omadust rahuldama. Selgub aga, et kui X on lõplik, siis f mis rahuldab grupeerimisomadust ning in lisaks pidev, sümmeetriline ja normeeritud (igati loomulikud eeldused) saab olla ainult entroopia. Sõnastame selle väitena. Lõpliku X korral on iga tõenäosusmõõt vektor (p,..., p m ), kus X = m, p i 0 ja i= p i =. Olgu selliste vektorite hulk P m, seda hulka nimetatakse ((m )-dimensionaalseks) simpleksiks. Funktsioon f m : P m R on pidev parajasti siis, kui ta on pidev kõikide argumentide järgi. Funktsiooni f m nimetame sümmeetriliseks, kui f m (p,..., p m ) ei sõltu argumentide järjekorrast. Väide. Olgu iga m korral f m : P m [0, ) sümmeetrilised funktsioonid, mis rahuldavad järgmisi omadusi (aksioome): A f 2 on normaliseeritud, st f 2 ( 2, 2 ) = ; A2 f m on pidev iga m = 2, 3,... korral; A3 kehtib grupeerimisomadus: iga < k < m korral f m (p, p 2,..., p m ) = f m k+ (Σ k i=p i, p k+,..., p m )+ ( ) ( Σ k p p ) k i=p i fk Σ k i= p,..., i Σ k i= p. i A4 iga m < n korral f m ( m,..., m ) f n( n,..., n ). Siis iga m korral Tõestus. Olgu iga m korral f m (p,..., p m ) = m p i log p i. (.4) i= g(m) := f m ( m,..., m ). Grupeerimisomadust ja sümmeetriat m korda rakendades saame ( g(mn) = f nm nm,...,,..., }{{ nm} nm,..., ) }{{ nm} n n = f m ( m..., m ) + f ( n n,..., ) = g(m) + g(n). n 6

Seega iga täisarvu n ja k korral g(n k ) = kg(n) ja A tõttu g(2 k ) = kg(2) = k ehk g(2 k ) = log(2 k ), k. Omadust A4 kasutades on võimalik näidata, et ülaltoodud võrdus kehtib iga täisarvu n korral, ehk g(n) = log n, n N. Olgu nüüd m suvaline täisarv ja vaatleme vektorit (p,..., p m ), mille kõik komponendid on ratsionaalarvud. Seega leiduvad täisarvud k,..., k m ja ühine nimetaja n nii, et p i = k i, n i =,..., m. Sellisel juhul Seega ( g(n) = f n n,..., }{{ n} k, n,...,,..., }{{ n} k 2 = f m ( k n,..., k m n ) + m = f m (p,..., p m ) + i= m i= n,..., n } {{ } k m ) k i n f k i ( k i,..., k i ) k i n g(k i) = f m (p,..., p m ) + m p i log(k i ). i= f m (p,..., p m ) = log(n) m p i log(k i ) = i= i= m p i log( k m i n ) = p i log p i i= ehk ratsionaalarvuliste argumentide korral (.4) kehtib. Et f m on pidev, kehtib (.4) suvaliste argumentide korral. Märkus: Väide kehtib ka ilma aksioomita A4...3 Entroopia on rangelt nõgus Funktsioon g : R R on kumer, kui iga x, x 2 ja λ [0, ] korral kehtib g(λx + ( λ)x 2 ) λg(x ) + ( λ)g(x 2 ). Funktsioon g on rangelt kumer kui võrdus kehtib vaid siis, kui λ = või λ = 0. Funktsioon g on nõgus, kui g on kumer. Jaotuste segu. Olgu P ja P 2 kaks hulgal X antud jaotust. Eeldus, et P ja P 2 on antud ühel ja samal hulgal pole üldisust kitsendav: kui P on antud hulgal X ja P 2 on antud hulgal X 2, siis defineerime X = X X 2. Mõõtude P ja P 2 segu on nende kumer kombinatsioon Q = λp + ( λ)p 2, λ (0, ). 7

Kui X P ja X 2 P 2 ning Z B(, λ), siis järgmine juhuslik suurus on jaotusega Q: { X kui Z =, Y = X 2 kui Z = 0. On selge, et segu Q kätkeb endas nii P kui ka P 2 juhuslikkust. Lisaks on juhuslik komponendi valik (juhuslik suurus Z). Järgnev väide näitab, et H(Q) on suurem kui λh(p ) + ( λ)h(p 2 ) ehk entroopia on nõgus. Väide.2 Entroopia on rangelt nõgus, s.t. H(Q) λh(p ) + ( λ)h(p 2 ), kusjuures võrratus on range välja arvatud juhul, kui P = P 2. Tõestus. Funktsioon f(y) = y log y on rangelt nõgus (y 0). Seega iga x X korral λp (x) log P (x) ( λ)p 2 (x) log P 2 (x) = λf ( P (x) ) + ( λ)f ( P 2 (x) ) ( ) f λp (x) + ( λ)p 2 (x) = Q(x) log Q(x). Summeerides mõlemad pooled üle X, saame λh(p ) + ( λ)h(p 2 ) H(Q). Viimane võrratus on range, kui leidub vähemalt üks x X nii, et P (x) P 2 (x). Näide: Bernoulli p-jaotus B(, p) on konstantide ja 0 kumer kombinatsioon. Entroopia nõgususest järeldub: h(λp + ( λ)p 2 ) λh(p ) + ( λ)h(p 2 ), st binaarne entroopiafunktsioon on nõgus...4 Jenseni võrratus Edaspidi kasutame tihti Jenseni võrratust. Et Jenseni võrratus käsitleb X keskväärtust, eeldame seejuures, et X R, st tähed on reaalarvud (vastasel juhul pole EX defineeritud). Teoreem.2 (Jenseni võrratus). E g(x) < ja E X <. Siis Olgu X R, ja g kumer funktsioon, kusjuures Eg(X) g(ex). (.5) Kui g on rangelt kumer, siis (.5) on võrdus parajsti siis, kui X = EX p.k. Tõestus. Tuleta meelde (rangelt) kumera funktsiooni definitisioon. Kumeral funktsioonil g on omadus: y R m(y) R : g(x) g(y) m(y)(x y), x R. 8

(m(y) = g (y), kui viimane eksisteerib). Kui g on rangelt kumer, siis on ülaltoodud võrratus võrdus vaid x = y korral. Olgu y = EX R. Iga juhusliku suuruse X väärtuse x i korral Seega g(x i ) g(ex) m(ex)(x i EX). Eg(X) g(ex) = ( g(xi ) g(ex) ) p i m(ex) ( xi EX ) p i = m(ex)(ex EX) = 0 ehk Eg(X) g(ex). Näitame nüüd, et rangelt kumera g korral on võrratus võrdus vaid siis, kui X = EX p.k. Olgu Z := ( g(x) g(ex) ) m(ex) ( X EX ). Juhuslik suurus Z on mittenegatiivne. Seega EZ = 0 parajasti siis, kui Z = 0 p.k., millest ( g(x) g(ex) ) = m(ex) ( X EX ) p.k.. Rangelt kumera g korral tähendab viimane võrdus, et X = EX p.k..2 Ühisentroopia Olgu X ja Y diskreetsed juhuslikud suurused, mis võtavad väärtusi tähestikel X ja Y. Seega (X, Y ) on diskreetne juhuslik vektor, mille väärtused sisalduvad hulgas X Y = {(x, y) : x X, y Y}. Olgu (X, Y ) ühisjaotus P. Seega on P hulgal X Y antud tõenäosusmõõt. Tähistame p ij := P (x i, y j ) = P ( (X, Y ) = (x i, y j ) ) = P(X = x i, Y = y j ). Ühisjaotus esitatakse tihti tabelina X \Y y y 2... y j... x P (x, y ) = p P (x, y 2 ) = p 2... p j... j p j = P (x ) x 2 P (x 2, y ) = p 2 P (x, y 2 ) = p 22... p 2j... j p 2j = P (x 2 ).................. x i p i p i2... p ij... j p ij = P (x i ).................. i p i = P (y ) i p i2 = P (y 2 )... i p ij = P (y j )... Ülaltoodud tabelis ning ka edaspidi, P (x) := P(X = x) ja P (y) := P(Y = y) 9

tähistavad marginaaltõenäosusi. Pane tähele, et kui mingi paari (x, y) korral P (x, y) > 0, siis ka P (x) > 0 ja P (y) > 0. Kui X ja Y on sõltumatud, siis P (x, y) = P (x)p (y) x X, y Y. Et juhuslikku vektorit (X, Y ) võib vaadelda kui diskreetset juhuslikku suurust, avaldub tema entroopia H(X, Y ) = p ij log p ij = ( ) P (x, y) log P (x, y) = E log P (X, Y ). (.6) ij (x,y) X Y Def.3 Juhusliku vektori (X, Y ) entroopiat (.6) nimetatakse juhuslike suuruste X ja Y ühisentroopiaks (joint entropy). Kui juhuslikud suurused X, Y on sõltumatud, siis H(X, Y ) = = x X (x,y) X Y P (x, y) log P (x, y) = x X P (x)p (y)(log P (x) + log P (y)) y Y P (x) log P (x) y Y P (y) log P (y) = H(X) + H(Y ). Ülaltoodud argumendi saab esitada ka teisiti. Iga x X ja y Y korral kehtib log P (x, y) = log P (x)+log P (y), millest log P (X, Y ) = log P (X)+log P (Y ). Keskväärtus on lineaarne, seega H(X, Y ) = E ( log P (X, Y ) ) = E ( log P (X) + log P (Y ) ) = E log P (X) E log P (Y ) = H(X) + H(Y ). Sõltumatute juhuslike suuruste ühisentroopia on seega komponentide entroopiate summa. See ühtib intuitsiooniga: kui X ja Y on sõltumatud, siis ei anna X väärtuse teadmine mingit informatsiooni Y kohta. See aga tähendab seda, et vektori (X, Y ) väärtuse teadasaamine annab niipalju informatsiooni kui mõlematest komponentidest saadava informatsiooni summa. Analoogiliselt defineeritakse mitme juhusliku suuruse X,..., X n ühisentroopia Kui juhuslikud suurused on sõltumatud, siis H(X,..., X n ) := E log P (X,..., X n ). H(X,..., X n ) = n H(X i ). i= 0

.3 Tinglik entroopia.3. Definitsioon Tähistame tinglikud tõenäosused P (x y) := P(X = x Y = y) = P (x, y) P (x, y), P (y x) := P(Y = y X = x) = P (y) P (x). Tuletame meelde: juhusliku suuruse Y tinglik jaotus tingimusel X = x (eeldusel P (x) > 0) on Selle jaotuse entroopia avaldub y y 2 y 3... P (y x) P (y 2 x) P (y 2 x)... H(Y x) :=: H(Y X = x) := y Y P (y x) log P (y x).. Vaatleme hulgal X antud funktsiooni x H(Y x). Võttes selle funktsiooni argumendiks juhusliku suuruse X, saame uue juhusliku suuruse (juhusliku suuruse X funktsiooni), mille jaotus on H(Y x ) H(Y x 2 ) H(Y x 3 )... P (x ) P (x 2 ) P (x 3 ).... Sellise jaotuse keskväärtus on (tulete meelde X P on P kandja tähed, mille tõenäosus on positiivne) x X P H(Y x)p (x). Def.4 Juhusliku suuruse Y tinglik entroopia (conditional entropy) tingimusel X on H(Y X) := H(Y x)p (x) = P (x) log P (y x)p (y x) x X P x X P y Y = ( ) log P (y x)p (x, y) = E log P (Y X). Märkused: x X P y Y Kui juhuslikud suurused X ja Y on sõltumatud, siis P (y x) = P (y) x X, y Y, millest H(Y X) = H(Y ). Üldiselt H(X Y ) ei võrdu H(Y X). Olgu näiteks X, Y sõltumatud juhuslikud suurused, kusjuures H(X) H(Y ). Siis H(X Y ) = H(X) H(Y ) = H(Y X).

H(Y X) = 0 parajasti siis, kui Y on X funktsioon. Tõepoolest, H(Y X) = 0 parajasti siis, kui H(Y X = x) = 0 iga x X korral. See aga tähendab, et leidub konstant f(x) nii, et P(Y = f(x) X = x) = ehk Y = f(x). Järelikult kehtib ka H(X X) = 0. Järgmine väide avab tingliku entroopia olemuse. Väide.3 H(X, Y ) = H(X) + H(Y X) = H(Y ) + H(X Y ). Tõestus. Iga (x, y) X Y korral nii, et P (x, y) > 0 kehtib P (x, y) = P (x)p (y x), millest log P (x, y) = log P (x) + log P (y x) Seega H(X, Y ) = E log P (X, Y ) = E log P (X) E log P (Y X) = H(X) + H(Y X). Et H(X, Y ) = H(Y, X), siis teine võrdus kehtib ka..3.2 Ketireeglid Olgu X, Y, Z kolm juhuslikku suurust väärtuste hulgaga. Olgu nende kandjad vastavalt X, Y ja Z. Analoogiliselt H(Y X) definitsiooniga defineerime H(X, Y Z) ja H(X Y, Z): H(X, Y Z) := P (z) P (x, y z) log P (x, y z) z Z = H(X Y, Z) := (x,y,z) X Y Z (x,y) X Y log P (x, y z)p (x, y, z) = E log P (X, Y Z) P (x y, z) log P (x y, z) P (y, z) (y,z) Y Z x X = log P (x y, z)p (x, y, z) = E log P (X Y, Z). (x,y,z) X Y Z Nüüd on selge, kuidas suvaliste juhuslike suuruste X,..., X n korral on defineeritud tinglik entroopia H(X n, X n,..., X j X j,..., X ). Väide.3 üldistub mitmes suunas. Alljärgnev on väite.3 tinglik versioon Väide.4 H(Y, X Z) = H(X Z) + H(Y X, Z). 2

Tõestus. Iga sellise kolmiku (x, y, z) kus P (x, y, z) > 0 korral kehtib P (x, y z) = P (x z)p (y x, z). Nüüd H(X, Y Z) = E log P (X, Y Z) = E log P (X Z) E log P (Y X, Z) = H(X Z)+H(Y X, Z). Väitest.4 järeldub väide.3. Ka järgmine lemma üldistab väidet.3. Lemma. (Ketireegel) Olgu X,..., X n juhuslikud suurused. Siis H(X,..., X n ) = H(X ) + H(X 2 X ) + H(X 3 X, X 2 ) + + H(X n X,..., X n ). Tõestus. Olgu juhuslike suuruste kandjad vastavalt X,..., X n. Olgu x X,..., x n X n sellised, et P (x,..., x n ) > 0. Iga sellise vektori korral kehtib millest P (x,..., x n ) = P (x )P (x 2 x )P (x 3 x, x 2 ) P (x n x,..., x n ), H(X,..., X n ) = E log P (X,..., X n ) = E log P (X ) E log P (X 2 X ) E log P (X n X,..., X n ) = H(X ) + H(X 2 X ) + + H(X n X,..., X n ). Kehtib ka ketireegli tinglik versioon. Lemma.2 (Tinglik ketireegel) Olgu X,..., X n, Z juhuslikud suurused. Siis H(X,..., X n Z) = H(X Z)+H(X 2 X, Z)+H(X 3 X, X 2, Z)+ +H(X n X,..., X n, Z). Tõestus. Olgu juhuslike suuruste X,..., X n, Z kandjad vastavalt X,..., X n ja Z. Väide järeldub sellest, et iga x i X i ja z Z korral (tingimusel P (x,..., x n, z) > 0) P (x,..., x n z) = P (x z)p (x 2 x, z)p (x 3 x 2, x, z) P (x n x,..., x n, z) Tinglikust ketireeglist järeldub nii väide.4 kui ka ketireegel. 3

.4 Kullback-Leibleri kaugus.4. Definitsioon Olgu P ja Q kaks jaotust tähestikul X. tabelitena P : x x 2 x 3... P (x ) P (x 2 ) P (x 3 )... Tuletame meelde, et need mõõdud esituvad Q : x x 2 x 3... Q(x ) Q(x 2 ) Q(x 3 )..., kusjuures võib olla, et mõne i korral Q(x i ) = 0 või P (x i ) = 0. NB! Lepime kokku, et 0 log( 0) = 0, kui q 0, p log( p ) =, kui p > 0. q 0 Def.5 Mõõtude P ja Q Kullback-Leibleri kaugus (Kullback-Leibler distance, Kullback-Leibler divergence, relative entropy) on Kui X P, siis kehtib D(P Q) := x X ( D(P Q) = E Kui X P ja Y Q, siis tähistame ka Märkused: P (x) log P (x) Q(x). (.7) log P (X) Q(X) D(X Y ) := D(P Q). log P (x) ei pruugi olla positiivne. Veendume, et rida (.7) on sellegipoolest defineeritud. Q(x) Olgu Et X + := { x X : P (x) } { Q(x) >, X := x X : P (x) } Q(x). P (x) log P (x) Q(x) = P (x) log Q(x) P (x) P (x) Q(x) P (x). x X x X x X Seega on rea (.7) negatiivne osa koonduv. Kui x X P (x) log P (x) + Q(x) (.7) koonduv, vastasel juhul on tema summa. ). <, on rida D(P Q) nimetatakse küll Kullback-Leibleri kauguseks, kuid ta pole meetrika: kuigi D(P Q) 0, kusjuures D(P Q) = 0 parajasti siis, kui P = Q (tõestus allpool), pole üldiselt D(P Q) ja D(Q P ) võrdsed (D pole sümmeetriline) ning ei kehti ka kolmurga võrratus (vaata ülesanne 8). 4

K-L kaugus mõõdab "keskmist üllatust", mille jaotusega P juhuslik suurus meile valmistab, kui eeldame, et tema jaotus on Q. Oletame, et leidub x X nii, et Q(x ) = 0, kuid P (x ) > 0. sellisel juhul x X + log ( P (x) ) ( P (x P (x) P (x ) ) ) log =. Q(x) Q(x ) Seega on üllatus lõpmatu, kui mingi (meie arvates) võimatu sündmus (x ) toimub (vähemalt üks kord). See ühtib intuitsiooniga: võimatu sündmuse toimumist peetakse imeks. Vaatleme aga sellist x X, et Q(x ) > 0, kuid P (x ) = 0. sellisel juhul ( P (x P (x ) ) ) log = 0. Q(x ) Selline sündmus kaugust D(P Q) ei suurenda. Teisisõnu, üllatus ei suurene kui mõni meie meelest positiivse tõenäosusega sündmus x toimumata jääb. Ka see ühtib intuitsiooniga: mingi positiivse tõenäosusega sündmuse mittetoimumist üldiselt imeks ei panda. Sellest vaatepunktist lähtudes on K-L kauguse ebasümmeetrilisus igati loogiline. Näide: Olgu P = B(, ), Q = B(, q). Siis 2 D(P Q) = 2 log( 2q ) + 2 log( 2( q) ) = log(4q( q)), kui q 0 2 D(Q P ) =q log(2q) + ( q) log(2( q)) kui q 0..4.2 Gibbsi võrratus ja selle järeldused Väide.5 (Gibbsi võrratus) D(P Q) 0, kusjuures D(P Q) = 0 parajasti siis, kui P = Q. Tõestus. Kui D(P Q) =, siis väide kehtib triviaalselt. Vaatleme olukorda, kus D(P Q) <, s.t. rida (.7) on absoluutselt koonduv. Olgu X jaotusega P juhuslik suurus. Defineerime juhusliku suuruse Y := Q(X). Olgu P (X) g(x) := log(x) rangelt kumer funktsioon. Seega E g(y ) = x X log Q(x) P (x) P (x) = x X log P (x) P (x) <, Q(x) E Y Jenseni võrratusest järeldub, et ( D(P Q) = E log P (X) ) ( = E log Q(X) ) Q(X) P (X) = x X Q(x) P (x) =. P (x) = Eg(Y ) g(ey ) = log() = 0, kusjuures D(P Q) = 0 parajasti siis, kui Y = p.k. ehk Q(x) = P (x) iga sellise x X korral, et P (x) > 0. Sellest järeldub, et Q(x) = P (x) iga x X korral. Gibbsi võrratusest järeldub muuhulgas, et lõpliku tähestiku korral on suurim entroopia ühtlasel jaotusel. 5

Järeldus. Olgu X <. Siis iga hulgal X antud jaotuse P korral H(P ) log X, kusjuures võrdus kehtib vaid ühtlase jaotuse korral. Tõestus. Olgu U ühtlane jaotus üle X, s.t. U(x) = X iga x X korral. Siis D(P U) = x X P (x) log P (x) U(x) = log X H(P ) 0. Väide.6 (log-sum võrratus) Olgu a, a 2,... ja b, b 2,... mittenegatiivsed arvud, a i < ja 0 < b i <. Siis ai log a i ai a i log, (.8) b i bi kusjuures võrratus on võrdus parajasti siis, kui a i b i = c i. Tõestus. Olgu a i = a i j a j, b i = b i j b. j Seega on {a i} ja {b i} tõenäosusjaotused ning väitest.5 järeldub 0 a i log a i b i = a i j a log j a i j a j b i j b j = [ j a ai log a i aj a i log ]. j b i bj Et ai log aj bj <, siis (.8) kehtib. Teame, et D({a i} {b i}) = 0 parajasti siis, kui a i = b i, millest a i j = a j b i j b =: c, i. j Märkus: Log-sum võrratuse tõestus põhineb Gibbsi võrratusel. Samas järeldub viimane otseselt log-sum võrratusest. Seega on need võrratused ekvivalentsed. Segude K-L kaugus. Olgu P, P 2, Q, Q 2 hulgal X antud jaotused. Vaatleme segusi λp + ( λ)p 2 ja λq + ( λ)q 2. Järeldus.2 D ( λp + ( λ)p 2 λq + ( λ)q 2 ) λd(p Q ) + ( λ)d(p 2 Q 2 ). (.9) 6

Tõestus. Fikseerime x X. Log-sum võrratusest järeldub Summeeri üle hulga X. λp (x) log λp (x) λq (x) + ( λ)p 2(x) log ( λ)p 2(x) ( λ)q 2 (x) ( ) λp (x) + ( λ)p 2 (x) log λp (x) + ( λ)p 2 (x) λq (x) + ( λ)q 2 (x). Võrratust (2.2) võime interpreteerida: K-L kaugus on kumer paaride (P, Q) suhtes. Fikseeritud Q korral järeldub võrratusest (2.2), et funktsioon P D(P Q) on kumer. Samamoodi järeldub, et funktsioon Q D(P Q) on kumer. Veel enam, mõlemad nimetatud funktsioonid on rangelt kumerad (piirkonnas kus nad on lõplikud): D(P Q) = P (x) log P (x) P (x) log Q(x) = P (x) log Q(x) H(P ). (.0) Funktsioon P P (x) log Q(x) on lineaarne, P H(P ) aga rangelt nõgus. Seega P D(P Q) on rangelt kumer. Selles mõttes käitub ta kui kaugus. Seosest (.0) järeldub ka, et Q D(P Q) on rangelt kumer..4.3 Pinskeri võrratus Tõenäosusmõõtude omavaheline kaugus. Olgu ühel ja samal tähestikus X (aga teame, et see eeldus pole kitsendav) antud kaks erinevat tõenäosusmõõtu P ja Q. Kuidas mõõta nende omavahelist kaugust? Tõenäosusteoorias on selleks mitmesuguseid meetrikaid (kaugusi) ja teatavas mõttes mõõdab P ja Q omavahelist kaugust ka K-L kaugus (kuigi ta pole sümmeetriline). Vaadeldes mõõte P ja Q ruumi R X elementidena (oletame hetkeks, et X < ) võivad kõne alla tulla kõik ruumis R X defineeritud kaugused, näiteks eukleidiline kaugus l 2 -meetrika. Selgub, et tõenäosusmõõtude korral on otstarbekas kasutada l -meetrikat ja nii defineerimegi P ja P 2 vahelise kauguse järgmiselt: P P 2 := x X P (x) P 2 (x). On lihtne näidata, et defineeritud kaugus on meetrika ning samuti on lihtne näha (ülesanne 9), et P P 2 = 2 sup P (B) P 2 (B) = 2 P (A) P 2 (A) 2, (.) B X kus A := {x X : P (x) P 2 (x)}. Seega, kui P n on tähestikul antud mõõtude jada nii, et P n P 0, siis iga B X korral P n (B) P (B), millest loomulikult (aga see tuleneb ju ka vahetult definitsioonist) järeldub, et sellisel juhul iga tähe x X korral P n (x) P (x). Teisest küljest aga on 7

võimalik näidata (lõpliku tähestiku korral on see ilmne, lõpmatu tähestiku korral järeldub see nn Sheffe lemmast), P n P 0 P n (x) P (x), x X. Edaspidi tähistame: P n P tähendab P n P 0 ja seega P n P parajasti siis, kui P n (x) P (x) iga x korral. Märkus: Kaugust P 2 P 2 nimetatakse ingliskeelses kirjanduses distance of total variation (variational distance) ja tähistatakse tihti T V. Pinskeri võrratus. Pinskeri võrratus väidab muuhulgas, et kui P ja P n on tähestikul X defineeritud jaotused nii, et D(P n P ) 0 või D(P P n ) 0, siis P n P. Teoreem.6 (Pinskeri võrratus) Iga tähestikul X antud kahe jaotuse P ja Q korral kehtib D(P Q) 2 ln 2 P Q 2. (.2) Tõestus. Kõigepealt tõestame võrratuse juhul, kui X = 2. Seega olgu P = (p, p) ja Q = (q, q), P Q = 2 p q. Seega on vaja näidata, et g(p, q) := p log p q + ( p) log ( p q Fikseerime p ja võtame tuletise q järgi. Saame (kontrolli!) dg(p, q) dq = q p q( q) ln 2 ) 4 2 ln 2 (p q)2 0. 4(q p). ln 2 Veendu, et kui 0 < q < p, siis dg(p,q) dq < 0 ehk q g(p, q) on kahanev. Et g(p, p) = 0, järeldub sellest, et kui q p, siis g(p, q) 0. Kui q > p, siis q < p ja tähistades q := q, p := p saame jälle, et võrratus kehtib. Üldise tähestiku korral kasutame log-sum võrratust. Olgu Defineerime jaotused ˆP ja ˆQ järgmiselt x A A := {x X : P (x) Q(x)}. ˆP := (P (A), ( P (A)), Log-sum võrratus: P (x) log P (x) P (A) P (A) log Q(x) Q(A), millest saame, et ˆQ := (Q(A), ( Q(A)). P (x) log P (x) Q(x) x A c (( P (A)) log ( P (A)) ( Q(A)), D(P Q) D( ˆP ˆQ) 4 2 ln 2 (P (A) Q(A))2 = 2 ln 2 P Q 2. Siin teine võrratus tulenes sellest, et kahe tähe korral Pinskeri võrratus on juba tõestatud ja viimane võrdus tuleb võrdusest (.). 8

Pidevusest. Olles defineerinud tõenäosusmõõtude koondumise on loomulik küsida, kas koondumisest P n P järeldub entroopia koondumine H(P n ) H(P ), (st kas entroopia on pidev funktsioon) või koondumine D(P n Q) D(P Q) või koondumine D(Q P n ) D(Q P ) (st kas K-L kaugus on pidev ühe või teise argumendi järgi). Entroopia pidevusest. Et q q log q on pidev funktsioon, on lihtne veenduda, et kui X <, on P H(P ) pidev funktsioon kõikidel tõenäosusmõõtude hulgal P (veendu selles!). Tuletame, et pidevus oli ka üks aksioomidest (lõplikumõõtmelise) entroopia defineerimisel. Olukord on aga hoopis teine, kui X =. Selgub, et sellisel juhul pole entroopia ühegi mõõdu korral pidev: iga jaotuse P korral leidub jada P n P nii, et H(P n ) H(P ). Väide kehtib ka siis, kui P aatomite hulk on lõplik. Veendume selles. Olgu X =, kuid mõõdul P vaid lõplik hulk m aatomeid. Seega olgu Konstrueerime jaotuste jada P n järgmiselt: kus P = (p, p 2,..., p m, 0, 0,...). P n = ( ( n )p,..., ( n )p m,,..., 0,...), (.3) nm n nm }{{ n} M n M n = 2 nc, c > 0. On kerge veenduda, et et P n P kuid (ülesanne ) H(P n ) = ( n )H(P ) + n log 2 M n + h( ) H(P ) + c. n Vaadeldud näite korral piirjaotusel P on lõplik hulk aatomeid, kuid samasuguse kontranäite saab konstureerida ka siis kui P aatomite arv on lõpmatu ehk kehtib järgmine teoreem. Teoreem.7 (S-W. So ja R. Yeung) Olgu tähestik X lõpmatu. Siis iga jaotuse P ja arvu 0 c korral leidub jada P n nii, et P n P, kuid H(P n ) H(P ) + c. K-L pidevusest. Vaatleme lühidalt funktsiooni P D(P Q) pidevust. Olgu X <. Teame, et P D(P Q) on kumer. Lõplikudimensionaalne kumer funktsioon on pidev piirkonnas kus ta on lõplik. Seega, kui X <, D(P Q) < ja P n P on selline, et D(P n Q) < iga n korral, siis kehtib ka koondumine D(P n Q) D(P Q). Pane tähele, et ilma lisatingimuseta D(P n Q) < ülaltoodud koondumine ei kehti. Kontranäitena vaatleme olukorda, kus X = 2, P = Q = (, 0) ja P n = (, ). On selge, n n et P n P, kuid iga n korral D(P n Q) =. Lõpliku tähestiku korral on kumer ka funktsioon Q D(P Q) ning sellest järeldub ka selle funktsiooni pidevus. Juhul, kui X on lõpmatu, ei järeldu koondumisest P n P koondumine D(P n Q) D(P Q). Kontranäide on ülesanne 2. 9

.4.4 Tinglik Kullback-Leibleri kaugus Kullback-Leibleri kaugus mõõdab kahe jaotuse vahelist seost. Tinglik Kullback-Leibleri kaugus mõõdab kahe tingliku jaotuse P (y x) ja P 2 (y x) vahelist seost. Täpsemalt, olgu iga x korral P (y x) ja P 2 (y x) tinglikud jaotused hulgal Y. Seega võime iga sellise x korral, mis rahuldab P (x) > 0, defineerida nende jaotuste vahel KL-kauguse D(P (y x) P 2 (y x) x) := y Y P (y x) log P (y x) P 2 (y x). Nagu ikka informatsiooniteoorias, keskmistatakse tinglikud karakteristikud üle x-de hulgal X antud jaotuse P (x). Def.8 Olgu P (y x) ja P 2 (y x) tingliku jaotused hulgal Y. Hulgal X antud jaotuse P (x) korral tinglik Kullback-Leibleri kaugus (conditional relative entropy) on D(P (y x) P 2 (y x)) := D(P (y x) P 2 (y x) x)p (x) = P (x) x X P x X P y Y = P (y, x) log P (y x) P 2 (y x), kus P (x, y) := P (x)p (y x). x X P y Y P (y x) log P (y x) P 2 (y x) Olgu nüüd X jaotusega P juhuslik suurus; (X, Y ) ja (X, Y 2 ) olgu jaotustega P (x, y) = P (x)p (y x) ja P 2 (x, y) = P (x)p 2 (y x) juhuslikud vektorid, st P i (y x) on Y i tinglik jaotus tingimusel X = x, (i =, 2). Sellisel juhul Märkused: D ( P (y x) P 2 (y x) ) = E log P (Y X) P 2 (Y X) =: D(Y Y 2 X) (.4). Tähistusest D(P (y x) P 2 (y x)) ei selgu, milline on jaotus P, üle mille keskmistatakse. Harilikult selgub see kontekstist. 2. Tähistus D(Y Y 2 X) võib olla eksitav. Olgu näiteks (X, Y ) ning (X 2, Y 2 ) kaks juhuslikku vektorit ühisjaotustega vastavalt P (x, y) = P (x)p (y x) ja P 2 (x, y) = P 2 (x)p 2 (y x). Võttes P (x) = P (x), saame D ( P (y x) P 2 (y x) ) = E log P (Y X ) P 2 (Y X ). (.5) Võrduse (.5) parem pool on igati korrektne, kuid tähistuse D(Y Y 2 X ) korral tuleb meeles pidada, et P 2 (x, y) pole mitte (X, Y 2 ) vaid (X 2, Y 2 ) ühisjaotus. Seega P 2 (y x) on juhusliku suuruse Y 2 tinglik jaotus tingimusel X 2 (mis tähistuses ei figureerigi) mitte X. Seda tuleb meeles pidada eelkõige KL-kauguse ketireegli (väide.9) korral. 20

Väide.7 D(P (y x) P 2 (y x)) 0, kusjuures võrdus kehtib vaid siis kui P (y x) = P 2 (y x) y Y ja iga x X P. Tõestus. Iga x X korral D(P (y x) P 2 (y x) x) 0, millest järelduvalt Oletame, et D(P (y x) P 2 (y x)) 0. D(P (y x) P 2 (y x)) = 0. Siis iga x X P korral kehtib D(P (y x) P 2 (y x) x) = 0 ja sellest järeldub väide. Väide.8 (Tingimustamine suurendab K-L kaugust) kus P i (y) = x P i(y x)p (x), kus i =, 2. D(P (y x) P 2 (y x)) D(P P 2 ), Tõestus. Log-sum võrratusest saame, et iga y Y korral P (y x)p (x) log P (y x)p (x) P 2 (y x)p (x) P (y) log P (y) P 2 (y). Summeeri üle Y. x Väide.9 (K-L kauguse ketireegel) Olgu (X,..., X n ) ja (Y,... Y n ) juhuslikud vektorid, mis võtavad väärtusi hulgal X X. Siis ( ) D (X,..., X n ) (Y,..., Y n ) = D(X Y ) + D(X 2 Y 2 X ) + D(X 3 Y 3 X, X 2 ) + + D(X n Y n X,..., X n ). Tõestus. Olgu P (x,..., x n ) = P (x )P (x 2 x )P (x 3 x, x 2 ) P (x n x,..., x n ) vektori (X,..., X n ) jaotus ning olgu Q(x,..., x n ) = Q(x )Q(x 2 x ) Q(x n x,..., x n ) vektori (Y,..., Y n ) jaotus. Juhuslike vektorite vaheline K-L kaugus on defineeritud D(X,..., X n Y,..., Y n ) = E log P (X,..., X n ) Q(X,..., X n ) = E log P (X )P (X 2 X ) P (X n X,..., X n ) Q(X )Q(X 2 X ) Q(X n X,..., X n ) = E log P (X ) Q(X ) + E log P (X 2 X ) Q(X 2 X ) + + E log P (X n X,..., X n ) Q(X n X,..., X n ) = D(X Y ) + D(X 2 Y 2 X ) + + D(X n Y n X,..., X n ). 2

.5 Vastastikune informatsioon Olgu (X, Y ) juhuslik vektor ühisjaotusega P (x, y), (x, y) X Y. Def.9 Juhuslike suuruste X, Y vastastikune informatsioon (mutual information) on I(X; Y ) := P (x, y) P (x, y) log P (x)p (y) = D( P (x, y) P (x)p (y) ) ( = E log P (X, Y ) ). P (X)P (Y ) x,y Vastastikune informatsioon on seega K-L kaugus jaotuse P (x, y) ning korrutismõõdu P (x)p (y) vahel. Teisisõnu, I(X; Y ) on K-L kaugus vektori (X, Y ) ja samade marginaaljaotusega kuid sõltumatute komponentidega vektori vahel. Märkused: Vastastikune informatsioon I(X; Y ) ei sõltu mitte ainult juhuslike suuruste X ja Y jaotusest vaid ka nende ühisjaotusest, s.t. vektori (X, Y ) jaotusest. 0 I(X; Y ). Vastastikune informatsioon on sümmeetriline: I(X; Y ) = I(Y ; X). I(X; Y ) = 0 parajasti siis kui X, Y on sõltumatud. Vastastikuse informatsiooni olemust aitab mõista järgmine seos: I(X; Y ) = E log P (X, Y ) P (X)P (Y ) Sümmeetria tõttu kehtib = E log P (X Y )P (Y ) P (X)P (Y ) = E log P (X Y ) P (X) = E log P (X Y ) E log P (X) = H(X) H(X Y ). I(X; Y ) = H(X) H(X Y ) = H(Y ) H(Y X). (.6) Suurus H(X) on juhusliku suuruse X "keskmine juhuslikkus", tema (väärtuse teadasaamisel saadav) informatsioon. Tinglik entroopia H(X Y ) on juhusliku suuruse X entroopia tingimusel, et Y on teada ehk X tinglik "juhuslikkus". On selge, et mida rohkem annab Y informatsiooni X kohta, seda väiksem on H(X Y ). Kui X = f(y ), siis H(X Y ) = 0. Kui X ja Y on sõltumatud, siis H(X Y ) = H(X). Mida väiksem on H(X Y ), seda suurem on vahe H(X) H(X Y ) = I(X; Y ). Nüüd on selge, mida I(X; Y ) mõõdab: juhusliku suuruse X entroopia kahanemist juhusliku suuruse Y läbi. Valemist (.6) järeldub, et täpselt sama palju kahaneb H(Y ) juhusliku suuruse X läbi. Sellest ka nimetus: vastastikune informatsioon. Kui X ja Y on sõltumatud, siis I(X; Y ) = 0 - juhuslikud suurused X ka Y ei anna teineteise kohta mingisugust informatsiooni. Paneme tähele, et I(X; X) = H(X) H(X X) = H(X), 22

s.t. juhuslik suurus X annab iseenese kohta täpselt H(X) informatsiooni. Inglisekeelses kirjanduses kutsutaksegi entroopiat teinekord self-information. Väide.3: H(X Y ) = H(X, Y ) H(Y ), millest I(X; Y ) = H(X) + H(Y ) H(X, Y ). (.7) Vastastikuse informatsiooni, tingliku entroopia ja entroopia omavahelisi seoseid aitab mõista alljärgnev diagramm. Teeme veel mõned lihtsad kuid olulised järeldused. Järeldus.3 (tingimustamine vähendab entroopiat) Juhuslike suuruste X ja Y korral kehtib H(X Y ) H(X), kusjuures ülaltoodud võrratus on võrdus vaid sõltumatute juhuslike suuruste korral. Tõestus. H(X) H(X Y ) = I(X; Y ) 0. Märkus: Tuleta meelde, et H(X Y ) = y H(X Y = y)p (y). Kuigi ülaltoodud summa on väiksem kui H(X), võib mõne y Y korral siiski olla, et H(X Y = y) > H(X). Näide: Y\X a b u 0 3 v 8 4 8 Järeldus.4 Juhusliku vektori (X,..., X n ) entroopia rahuldab H(X,..., X n ) n H(X i ), i= kusjuures võrratus on võrdus vaid sõltumatute komponentide korral. Tõestus. Ketireegelist saame H(X,..., X n ) = H(X ) + H(X 2 X ) + H(X 3 X, X 2 ) + + H(X n X,..., X n ). Kasuta eelmist järeldust. 23

.5. Tinglik vastastikune informatsioon Olgu X, Y, Z juhuslikud suurused, kusjuures Z kandja olgu Z. Def.0 Juhuslike suuruste X, Y (conditional mutual information) on vastastikune informatsioon tingimusel Z P (X Y, Z) I(X; Y Z) :=H(X Z) H(X Y, Z) = E log P (X Z) P (X Y, Z)P (Y Z) P (X, Y Z) =E log = E log P (X Z)P (Y Z) P (X Z)P (Y Z) = P (x, y z) P (x, y, z) log P (x z)p (y z) x,y,z = z Z P (z) y,x P (x, y z) log P (x, y z) P (x z)p (y z) = z Z D ( P (x, y z) P (x z)p (y z) ) P (z). Väide.0 I(X; Y Z) 0, kusjuures võrdus kehtib parajasti siis, kui X ja Y on tinglikult sõltumatud, s.t. P (x, y z) = P (x z)p (y z), x X, y Y, z Z. (.8) Tõestus. Et iga z korral ( ) D P (x, y z) P (x z)p (y z) P (z) 0, siis I(X; Y Z) = 0 parajasti siis, kui iga z Z korral ( ) D P (x, y z) P (x z)p (y z) = 0 ja sellest järeldub (.8). Tinglikul vastastikusel informatsioonil on üldiselt samad omadused mis vastastikusel informatsioonil. Kehtib (ülesanne 2) I(X; X Z) = H(X Z) Lisaks kehtib veel (ülesanne 2) I(X; Y Z) = H(Y Z) H(Y X, Z) I(X; Y Z) = H(X Z) + H(Y Z) H(X, Y Z). I(X; Y Z) = H(X; Z) + H(Y ; Z) H(X, Y, Z) H(Z). (.9) 24

Väide. (Vastastikuse informatsiooni ketireegel) I(X,..., X n ; Y ) = I(X ; Y )+I(X 2 ; Y X )+I(X 3 ; Y X, X 2 )+ +I(X n ; Y X,..., X n ). Tõestus. Kasutame entroopia ketireeglit ja tingliku entroopia ketireeglit. I(X,..., X n ; Y ) =H(X,..., X n ) H(X,..., X n Y ) =H(X ) + H(X 2 X ) + + H(X n X,..., X n ) H(X Y ) H(X 2 X, Y ) H(X n X,..., X n, Y ). Väide.2 (Tingliku vastastikuse informatsiooni ketireegel) I(X,..., X n ; Y Z) = I(X ; Y Z) + I(X 2 ; Y X, Z) + + I(X n ; Y X,..., X n, Z). Tõestus. Analoogiline..6 Andmetöötlusvõrratus.6. Lõplik Markovi ahel Def. Juhuslikud suurused X,..., X n kandjatega vastavalt X,..., X m moodustavad Markovi ahela kui iga x i X i ja iga m = 2,..., n korral P(X m+ = x m+ X m = x m,..., X = x ) = P(X m+ = x m+ X m = x m ). (.20) Seega on X,..., X n Markovi ahel parajasti siis, kui iga x,..., x n korral { P (x, x 2 )P (x 3 x 2 ) P (x n x n ) kui P (x 2 ) > 0,..., P (x n ) > 0, P (x,..., x n ) = 0 muidu. Asjaolu, et X,..., X n on Markovi ahel tähistatakse informatsiooniteoorias tihti: Seega X Y Z parajasti siis, kui X X 2 X n. P (x, y, z) = P (x)p (y x)p (z y). Väide.3 Kui X X 2 X n, siis X n X n X. Tõestus. X X 2 X n parajasti siis kui P (x,..., x n )P (x 2 ) P (x n ) = P (x, x 2 )P (x 2, x 3 ) P (x n, x n ). See on aga sümmeetriline. 25

Väide.4 Markovi ahela iga alamjada on Markovi ahel, s.t. kui X X 2 X n, siis X n X n2 X nk. Tõestus. Tuletame meelde tingliku täistõenäosuse valemi: kui A, B, C, C 2,... on sündmused ning C, C 2,... on täissüsteem (st C i C j = ja P( i C i ) = ), siis P(A B) = i P(A B, C i )P(C i B). (.2) Fikseerime m ja näitame, et ehk P(X m+2 = x m+2 X m = x m,..., X = x ) = P(X m+2 = x m+2 X m = x m ) P (x m+2 x m,..., x ) = P (x m+2 x m ). Kõigepealt paneme tähele, et valemit (.2) kasutades saame P (x m+2 x m+, x m ) = P (x m+2 x m+, x m, x m,..., x )P (x m,..., x x m, x m+ ) x,...,x m = P (x m+2 x m+ )P (x m,..., x x m, x m+ ) = P (x m+2 x m+ ). x,...,x m Analoogiliselt saame, et iga m < m 2 < < m k m korral P (x m+2 x m+, x mk, x mk,, x m ) = P (x m+2 x m+ ) (.22) [Seosest (.22) järeldub P (x m+2 x m+, x m ) = P (x m+2 x m+ ) (kuidas?)]. Seega Seega P (x m+2, x m+ x m,..., x ) = P (x m+2 x m+, x m,..., x )P (x m+ x m,..., x ) = P (x m+2 x m+, x m )P (x m+ x m ) = P (x m+2, x m+ x m ). P (x m+2 x m,..., x ) = x m+ P (x m+2, x m+ x m,..., x ) = x m+ P (x m+2, x m+ x m ) = P (x m+2 x m ). Viimasest võrdusest ja seosest (.22) järeldub, et X,..., X m, X m+2,... X n on Markovi ahel. Siit järeldub ülejäänu. Järeldus.5 Kui X X 2 X n, siis iga m < n korral P (x n,..., x m+ x m,..., x ) = P (x n,..., x m+ x m ). (.23) 26

Tõestus. Tõepoolest, kui X X 2 X n on Markovi ahel, siis Väite.4 korral on seda ka X k X n (k ), millest iga m > k korral P (x m x m,..., x k ) = P (x m x m ) (.24) Tõestusest saime, et P (x m+2, x m+ x m,..., x ) = P (x m+2, x m+ x m ). võrdust saame Kasutades seda P (x m+3, x m+2, x m+ x m,..., x ) = P (x m+3 x m+2, x m+, x m,..., x )P (x m+2, x m+ x m,..., x ) = P (x m+3 x m+2, x m+, x m,..., x )P (x m+2, x m+ x m ) = P (x m+3 x m+2, x m+, x m )P (x m+2, x m+ x m ) = P (x m+3, x m+2, x m+ x m ). Siin eelviimane võrdus tuleneb seosest (.24). Edasi jätka induktsiooniga. Väide.5 Juhuslikud suurused X,..., X n on Markovi ahel parajsti siis, kui iga m = 2,..., n korral X,..., X m ja X m+,..., X n on antud X m korral tinglikult sõltumatud. Tõestus. Olgu X,..., X n Markovi ahel. Tõestame, et P (x,..., x m, x m+,..., x n x m ) = P (x,..., x m x m )P (x m+,..., x n x m ). (.25) Seosest (.23) saame P (x,..., x n ) = P (x,..., x m )P (x m+,..., x n x,..., x m ) = P (x,..., x m )P (x m+,..., x n x m ), millest P (x,..., x n ) P (x m ) = P (x,..., x m ) P (x m+,..., x n x m ) = P (x,..., x m x m )P (x m+,..., x n x m ). P (x m ) Kehtigu (.25). Siis P (x m+,..., x n x,..., x m ) = P (x,..., x n ) P (x,..., x m ) = P (x,..., x n ) P (x m )P (x,..., x m x m ) = P (x,..., x m, x m+,..., x n x m ) = P (x m+,..., x n x m ). P (x,..., x m x m ) Seega X Y Z parjasti siis, kui antud Y korral on X ja Z tinglikult sõltumatud. 27

.6.2 Andmetöötlusvõrratus Lemma.3 (Andmetöötlusvõrratus) Kui X Y Z, siis I(X; Y ) I(X; Z), kusjuures võrdus kehtib parajasti siis, kui X Z Y. Tõestus. Et X ja Z on antud Y korral sõltumatud, siis I(X; Z Y ) = 0. Seega ketireeglist saame I(X; Y, Z) = I(X; Z) + I(X; Y Z) = I(X; Y ) + I(X; Z Y ) = I(X; Y ). (.26) Et I(X; Y Z) 0, siis I(X; Z) I(X; Y ), kusjuures võrdus kehtib parajsti siis, kui I(X; Y Z) = 0 ehk antud Z korral on X ja Y tinglikult sõltumatud ehk X Z Y on Markovi ahel. Olgu X juhuslik suurus, mille kohta vajame informatsiooni. Juhuslik suurus X on meil teadmata, meie käsutuses on vaid Y (andmed), mis annab X kohta I(X; Y ) bitti informatsiooni. Kas aga on võimalik Y töödelda nii, et X kohta saadav informatsioon suureneks? Juhuslikku suurust Y on võimalik töödelda determineeritult, s.t. rakendame talle mingit funktsiooni g. Seega saame uue juhusliku suuruse g(y ). Et aga X Y g(y ) on Markovi ahel, siis andmetöötlusvõrratusest saame, et I(X; Y ) I(X; g(y )) ehk g(y ) ei anna rohkem informatsiooni X kohta, kui Y. Teine võimalus on töödelda Y juhuslikult, s.t. lisada mingi X-st sõltumatu lisajuhuslikkus. Olgu Z andmete Y juhuslikul töötlemisel saadud juhuslik suurus. Et lisajuhuslikkus on X-st sõltumatu, on X Y Z Markovi ahel ning andmetöötlusvõrratusest järeldub I(X; Y ) (X; Z), s.t. ka juhuslik töötlemine ei suurenda informatsiooni. Seega postuleerib andmetöötlusvõrratus väga üldise printsiibi: andemete (juhuslikul või mittejuhuslikul) töötlemisel võib informatsioon vaid kaotsi minna, mitte mingil juhul ei saa aga informatsiooni juurde võita. Kas sellest järeldub igasuguse statistilise andmetöötluse mõttetus? Järeldus.6 Kui X Y Z, siis Tõestus. Ülesanne 25. Järeldus.7 Kui X Y Z, siis Tõestus. Ülesanne 25. H(X Z) H(X Y ). I(X; Z) I(Y ; Z), I(X; Y Z) I(X; Y ). 28

.6.3 Piisav statistik Olgu {P θ } hulgal X antud tõenäosusjaotuste klass. Statistikas interpreteeritakse hulka {P θ } kui mudelit, indeksit θ nimetatakse parameetriks. Olgu X juhuslik valim jaotusest P θ. Juhuslikku valimit X vaatleme kui juhuslikku suurust väärtuste hulgaga X n. Seega sõltub X jaotus vaid parameetrist θ. Olgu T (X) mingi statistik (valimi funktsioon), mille abil püüame hinnata valimi genereerivat jaotust P θ ehk siis parameetrit θ. Vaatleme olukorda, kus parameeter θ on juhuslik eeljaotusega π (Bayesi lähenemisviis). Sellisel juhul θ X T (X) on Markovi ahel ning andmetöötlusvõrratusest saame, et I(θ; T (X)) I(θ; X). Kui ülaltoodud võrratus on võrdus, siis on statistik T selline, et T (X) annab parameetri kohta sama palju informatsiooni kui X (sõltumata parameetri eeljaotusest π). Lemmast.3 teame, et võrdus kehtib parajasti siis, kui antud T (X) korral on X ja θ sõltumatud ehk θ T (X) X. Seos θ T (X) X kehtib aga parajasti siis, kui iga valimi x X n korral P(X = x T (X) = t, θ) = P(X = x T (X) = t) ehk antud T (X) korral ei sõltu valimi jaotus parameetrist θ. Statistikas nimetatakse selliseid statistikuid piisavateks. Seega oleme tõestanud järelduse. Järeldus.8 Statistik T on piisav parajasti siis, kui iga θ jaotuse korral I(θ; T (X)) = I(θ; X). Näide: Olgu {P θ } Bernoulli jaotuste hulk. Statistik T (X) = n i= X i on piisav, sest { 0 kui i P(X = x,..., X i = x i T (X) = t, θ) = x i t, kui i x i = t. Tõepoolest, kui i x i = t, siis P(X = x,..., X n = x n T (X) = t, θ) = P(X = x,..., X n = x n, T (X) = t, θ) P(T (X) = t, θ) θ t ( θ) n t π(θ) = x,...,x n : i x i=t θt ( θ) n t π(θ) =, Cn t sest fikseetud ühtede arvu korral on erinevateks valimiteks täpselt C t n võimalust..7 Fano võrratus Olgu X tundmatu juhuslik suurus ning olgu ˆX korreleeritud juhuslik suurus, mida vaatleme kui X hinnangut. Olgu P e := P(X ˆX) hindamisel tehatava vea tõenäosus. Kui P e = 0, siis X = ˆX p.k., millest H(X ˆX) = 0. Seega on loogiline, et kui P e on väike, siis H(X ˆX) peaks samuti väike olema. Selgub, et lõpliku tähestiku korral see nii ongi. 29 C t n

Teoreem.2 (Fano võrratus) Olgu X ja ˆX juhuslikud suurused tähestikul X. Siis kus h on binaarne entroopiafunktsioon. H(X ˆX) h(p e ) + P e log( X ), (.27) Tõestus. Olgu Seega E = { kui ˆX X, 0 kui ˆX = X. E = I { ˆX X}, E B(, P e ). Entroopia ketireeglist saame sest H(E X, ˆX) = 0 (miks?) Teisest küljest H(E, X ˆX) = H(X ˆX) + H(E X, ˆX) = H(X ˆX), (.28) H(E, X ˆX) = H(E ˆX) + H(X E, ˆX) H(E) + H(X E, ˆX) = h(p e ) + H(X E, ˆX). Paneme tähele, et H(X E, ˆX) = x X P( ˆX = x, E = )H(X ˆX = x, E = ) + x X P( ˆX = x, E = 0)H(X ˆX = x, E = 0). Tingimusel ˆX = x ja E = 0 kehtib X = x, siis on H(X ˆX = x, E = 0) = 0 ehk H(X E, ˆX) = x X P( ˆX = x, E = )H(X ˆX = x, E = ). Kui E = ja ˆX = x siis X X \x, millest H(X ˆX = x, E = ) log( X ). Kokkuvõttes H(X E, ˆX) P e log( X ). Seosest (.28) saame, et H(X ˆX) P e log( X ) + h(p e ). Järeldus.9 H(X ˆX) + P e log X, ehk P e H(X ˆX). log X 30

Kui X <, siis Fano võrratusest järeldub, et kui P e 0, siis H(X ˆX) 0. Kui aga tähestik on lõpmatu, siis Fano võrratus on trivaalne ja ülaltoodud implikatsioon ei pruugi kehtida. Näide: Olgu Z B(, p) ning olgu Y mingi selline juhuslik suurus, et Y > 0 ja H(Y ) =. Defineerime juhusliku suuruse X järgmiselt { 0 kui Z = 0, X = Y kui Z =. Olgu ˆX = 0 p.k. Siis P e = P(X > 0) = P(X = Y ) = P(Z = ) = p. Kuid H(X ˆX) = H(X) H(X Z) = ph(y ) =. Seega iga p > 0 korral H(X ˆX) =, mistõttu H(X ˆX) 0, kui P e 0. Millal on Fano võrratus võrdus? parajasti siis, kui iga x X korral Võrratuse tõestusest on näha, et võrdus kehtib ning H(X ˆX = x, E = ) = log( X ) (.29) H(E ˆX) = H(E). (.30) Seos (.29) tähendab, et vektori X tinglik jaotus tingimusel, et X ˆX = x on ühtlane üle ülejäänud tähtede X \x. See aga tähendab, et leidub p i nii, et iga x i X korral P( ˆX = x i, X = x j ) = p i, j i. Teisisõnu, vektori ( ˆX, X) ühisjaotuse tabelis ˆX\X x x 2 x n x P( ˆX = x, X = x ) P( ˆX = x, X = x 2 ) P( ˆX = x, X = x n ) x 2 P( ˆX = x 2, X = x ) P( ˆX = x 2, X = x 2 ) P( ˆX = x 2, X = x n ) x n P( ˆX = x n, X = x ) P( ˆX = x n, X = x n ) on igas reas väljaspool peadiagonaali kõik elemendid võrdsed. Seos (.30) kehtib, kui iga x X korral P (X = x ˆX = x) = P e ehk iga rea peadiagonaali elemendi suhe rea summase on võrdne P e. Selline jaotustabel on näiteks ˆX\X a b a a 3 0 b 25 c 3 50 0 3 25 3 50 0 25 9 50. 3

Ülaltoodud ühisjaotuse korral P e = 2, log( X ) =, millest 5 Teisest küljest aga P e log( X ) + h(p e ) = 2 5 + 3 5 log 5 3 + 2 5 log 5 2 = 3 5 log 5 3 + 2 log 5. 5 H(X ˆX = a) = H(X ˆX = b) = H(X ˆX = c) = 3 5 log 5 3 + 2 log 5, 5 millest H(X ˆX) = 3 5 log 5 3 + 2 log 5. 5 Seega on Fano võrratus võrdus..8 Juhusliku protsessi entroopiamäär Käesolevas alajaotuses vaatleme juhuslikku protsessi {X n } n=. Def.3 Juhusliku protsessi {X n } n= entroopiamäär (entropy rate) on kui piirväärtus eksisteerib. H X := lim n n H(X,..., X n ), Näited: Olgu {X n } n= i.i.d. juhuslikud suurused jaotusest P, s.t. X i P. Siis lim n n H(X,..., X n ) = lim n n n i= H(X i ) = lim n H(P ). Seega on i.i.d. protsessil entroopiamäär defineeritud, see võrdub jaotuse P entroopiaga. Olgu {X n } n= sõltumatud juhuslikud suurused. Siis n H(X,..., X n ) = n n H(X i ). Selline rida ei pruugi alati koonduda ja siis pole protsessi entroopiamäär defineeritud. Olgu X, X 2,... i.i.d. juhuslikud suurused, X i P. Vaatleme juhuslikku ekslemist, {S n } n=0, s.t. S 0 = 0, S = X, S 2 = X + X 2,..., S n = X + + X n. Juhusliku ekslemise entroopia on H S = H(P ) (ülesanne). 32 i=

Vaatleme piirväärtust H X := lim n H(X n X,..., X n ), mis muidugi ei pruugi alati eksisteerida. Järgnevas näeme, et statsionaarsete protsesside korral H X alati eksisteerib ning see on võrdne protsessi entroopiamääraga H X. Tuletame meelde statsionaarse protsessi definitsiooni. Def.4 Juhuslik protsess {X n } n= on statsionaarne (stationary), kui iga n ja iga k korral on juhuslikud vektorid ühe ja sama jaotusega. (X,..., X n ) ja (X k+,..., X k+n ) Kui {X n } n= on statsionaarne protsess, siis on juhuslikud suurused X, X 2,... sama jaotusega, juhuslikud vektorid (X, X 2 ), (X 2, X 3 ),... on sama jaotusega, juhuslikud vektorid (X, X 2, X 3 ), (X 2, X 3, X 4 ),... on sama jaotusega, jne. Väide.6 Kui {X n } n= on statsionaarne protsess, siis H X on alati defineeritud. Tõestus. Et {X n } n= on statsionaarne, siis iga n korral on juhuslikud vektorid (X,..., X n ) ja (X 2,..., X n+ ) sama jaotusega. Sellest järeldub, et iga n korral Seega H(X n X,..., X n ) = H(X n+ X 2,..., X n ). H(X n+ X,..., X n ) H(X n+ X 2,..., X n ) = H(X n X,..., X n ), millest saame, et {H(X n X,..., X n )} on mittenegatiivne ja mittekasvav jada ning sellisel jadal on piirväärtus. Järgnevas tõestame, et statsionaarse protsessi entroopiamäär on alatu defineeritud ja see võrdub H X. Tõestuses kasutame Cesaro lemmat. Lemma.4 (Cesaro lemma) Olgu {a n } mittenegatiivsete reaalarvude jada, kusjuures a > 0 ja n a n =. Tähistame b n := n i= a i. Olgu x n x suvaline koonduv jada. Siis n a i x i x, kui n. Juhul, kui a n =, saame b n i= x +... + x n n x. Teoreem.5 Kui {X n } n= on statsionaarne protsess, siis H X on alati defineeritud, kusjuures H X = H X. 33

Tõestus. Entroopia ketireeglist saame n H(X,..., X n ) = n n H(X k X,..., X k ). Et H(X k X,..., X k ) H X, siis Cesaro lemmast saame, et lim n n H(X,..., X n ) = lim n n k= n H(X k X,..., X k ) = H X. k= Seega statsionaarse protsessil on entroopiamäär alati defineeritud ning lisaks definitsioonile saab selle leidmiseks kasutada ka seost H X = H X. Ülaltoodud näidetest selgus, et ka mittestatsionaarsel protsessil võib leidida entroopiamäär (millised näidetes toodud protsessidest pole statsionaarsed?).8. Markovi ahela entroopiamäär Juhusliku protsessi entroopiamäära leidmine ei pruugi üldiselt olla kerge. Teatud protsesside korral (nagu näiteks i.i.d. protsess), on aga entroopiamäära lihtne leida. Alljärgnevas näeme, et ka satsionaarse Markovi ahela entroopiamäära on lihtne leida. Tuletame meelde (lõpmatu) Markovi ahela definitsiooni. Olgu {X n } n= juhuslik protsess, kusjuures juhuslikud suurused X i võtavad väärtusi hulgal X. Def.6 Juhuslik protsess {X n } n= on Markovi ahel, kui iga x i X ja iga m korral kehtib (.20), s.t. P(X m+ = x m+ X m = x m,..., X = x ) = P(X m+ = x m+ X m = x m ). (.3) Märkus: Arusaadavalt on võrdus (.3) defineeritud vaid siis, kui tinglik tõenäosus on defineeritud, s.t. P(X m = x m,..., X = x ) > 0. Markovi ahelate terminoloogias nimetatakse hulka X ahela seisundite hulgaks, selle elemente nimetatakse Markovi ahela seisunditeks. Markovi ahel on homogeene, kui võrduse (.3) parem pool ei sõltu m-st. Sellisel juhul iga m ja iga x i, x j X korral P(X m+ = x j X m = x i ) = P (X 2 = x j X = x i ) =: P ij. Maatriksit P = (P ij ) nimetatakse homogeense MA üleminekumaatriksiks. Alljärgnevas vaatlemegi vaid homogeenset Markovi ahelat {X n }. Olgu π(i) = π(x i ) juhusliku suuruse X jaotus (ütleme, et algtõenäosuste vektor). Siis P (X 2 = x j ) = i π(i)p ij ehk X 2 jaotus on π T P. Analoogiliselt on X 3 jaotus π T P 2 ning X k jaotus on π T P k. Seega on {X n } jaotus määratud üleminekumaatriksi P ja algtõenäosuste vektoriga π. Markovi ahel on statsionaarne parajasti siis, kui algtõenäosuste vektor π on selline, et π T P = π 34

ehk π(j) = i π(i)p ij iga j korral. Sellist vektorit nimetatakse statsionaarseks. Näide: Olgu X = 2 ning olgu üleminekumaatriks ( ) α α. β β Sellise üleminekumaatriksiga Markovi ahela statsionaarne algtõenäosuste vektor on β ( α + β, α α + β ). Teoreem.7 Olgu {X n } statsionaarne Markovi ahel üleminekumaatriksiga (P ij ) ja algtõenäosuste vektoriga π. Siis H X = H(X 2 X ) = i π(i) j P ij log P ij. Tõestus. Markovi omadusest saame, et iga n korral H(X n X n,..., X ) = H(X n X n ). Et ahel on statsionaarne, siis H(X n X n ) = H(X 2 X ) ja teoreemist.5 järeldub Seos H X = H X = lim n H(X n X n,..., X ) = lim n H(X n X n ) = H(X 2 X ). H(X 2 X ) = i π(i) j P ij log P ij on lihtne ülesanne..9 Erinevate algjaotustega Markovi ahelad Olgu X, X 2,... homogeene MA üleminekutõenäosustega R(x y), (st R(x y) = P(X n = x X n = y)) ja algtõenäosustega π (st π(x) = P(X = x)). Olgu X, X 2,... sama üleminekumaatriksi kuid algjaotusega π MA. Järgnev võrratus näitab, et sõltumata algjaotustest π ja π, juhuslike suuruste X n ja X n+ jaotused lähenevad teineteisele K-L mõttes. Väide.7 Iga n =, 2,... korral kehtib D(X n+ X n+) D(X n X n). (.32) Tõestus. Olgu P n ja P n vastavalt X n ja X n jaotused. Seega (.32) on D(P n+ P n+) D(P n P n). (.33) K-L ketireeglist saame D ( (X n+, X n ) (X n+, X n) ) = D ( ) ( ) X n+ X n+ + D Xn X n X n+ = D ( ( ) X n X n) + D Xn+ X n+ X n. 35