Peatükk 5 Dispersiooimaatriksi V hidamisest Üldistatud vähimruutude meetodit saame kasutada siis, kui teame vaatluste kovariatsiooimaatriksit V. Paraku eamasti pole uural sellist iformatsiooi. Seega tekib vajadus kovariatsiooimaatriksit hiata. 5. Näide mitmetasadilie mudel Alustame ühe lihtsa äitega lihtsa mitmetasadilise mudeliga. Soovigem äiteks välja selgitada ühe iimeste populatsiooi keskväärtust äiteks k~oigi eesti elaike keskmist verer~ohku µ. Iga iimese keskmie verer~ohk v~oib muidugi erieda populatsiooi keskmisest, µ i µ + γ i. Siit v~oime kirja paa ka mudeli üksikvaatluste tarvis: Y µ + γ i + ε, i...k, j...m Viimase valemi kirjapaekul oleme lihtsustavalt eeldaud, et igat iimest o m~o~odetud sama arv kordi m korda). Lisaks märkame, et Eγ i 0 tuleeb ~oudest Eµ i µ), ja eeldame, et γ i ja ε o teieteisest s~oltumatud m~o~otmisviga ei s~oltu verer~ohu k~orgusest): γ i ε i,j. Eeldame ka m~o~otmisvigade s~oltumatust ja iimeste s~oltumatust: γ i γ i, kui i i ; ε ε i j, kui i i v~oi j j. 35
36 PEATÜKK 5. DISPERSIOONIMAATRIKSI V HINDAMISEST V~otame kasutusele järgevad tähised: Dε σ 2 ε ja Dγ i σ 2 γ. Sellisel juhul ja DY Dµ + γ i + ε ) σ 2 γ + σ 2 ε, covy,y ) covµ + γ i + ε,µ + γ i + ε ) covγ i,γ i ) σ 2 γ. Märkame, et erievate iimeste vaatlused pole korreleeritud: covy,y i j ) 0, kui i i. Esitame üüd vaatluste vektori Y elemetidega Y ) kolme ortogoaalse kompoedi summaa: Y Y.. + Y i. Y.. ) + Y Y i. ); 5.) Nig paeme kirja ka k~oigi vaatluste ruutude summa Y 2 saraselt valemile 6.0): Y 2 Y T Y 5.2) Y + Y 2 + Y 3 ) T Y + Y 2 + Y 3 ) 5.3) Y T Y + Y T 2 Y 2 + Y T 3 Y 3 5.4) Y 2..) + Y i. Y.. ) 2 + Y Y i. ) 2, 5.5) kus Y o -vektor, mille elemetideks o Y.., Y 2 o -vektor, mille elemetideks o Y i. Y.. ja Y 3 elemetideks o väärtused Y Y i.. Kompoetide vabadusastmed vektorruumi dimesiooid) o vastavalt: km + k ) + km ). Liidetavad valemis 6.) kutsutakse Mea Sum of Squares, Betwee idividuals SS idiviidide vahelie ruutude summa) ja Withi idividuals SS idiviidi sisee ruutude summa). Jagades saadud ruutude summad Betwee idividuals SS ja Withi idividuals SS läbi vastavate vabadusastmetega, saame keskruudud Mea Square) MS B ja MS W.
5.. NÄIDE MITMETASANDILINE MUDEL 37 Nüüd meeutame tegelikku, kehtivat mudelit Y µ+γ i +ε ja leiame järgmised suurused: EMS W ) km ) E Y Y i. ) 2 EY Y i. ) 2 km ) km ) km ) km ) km ) DY Y i. ) D µ + γ i + ε µ γ i ) m ε i + ε i2 +... + ε im ) D m ε i m ε i2... m ε im + m m 2m )σ2 ε + km ) m m 2 σ 2 ε + m )σ 2 ε) ) m )2 m 2 σε 2 m ε ) σ 2 ε Seega o MS W dispersiooi σ 2 ε ihketa hiaguks.
38 PEATÜKK 5. DISPERSIOONIMAATRIKSI V HINDAMISEST EMS B ) k E Y i. Y.. ) 2 EY i. Y.. ) 2 k k k k D ) Y i. Y.. ) D µ + γ i + m ε i + ε i2 +... + ε im ) µ γ t ε tv k k k mσ 2 γ + σ 2 ε k k σ2 γ + k ) σ2 ε mσ 2 γ + σ 2 ε) Seega aab statistik MS B MS W )/m ihketa hiagu dispersiooile σ 2 γ. NB! Atud ihketa hiag v~oib tulla egatiive, aga juhusliku suuruse dispersioo σ 2 γ) ei saa p~ohim~otteliselt olla egatiive suurus. DY.. ) D k ) γ t + ε tv k 2kσ2 γ + 2σ2 ε mσ 2 γ + σε) 2 ja tutud statistikut ˆµ µ 0 )/sˆµ) saab leida valemiga Y.. µ 0 MSB /mk). t t,v t t,v Ülesae:. Iimese katsesse kaasamie maksab 200EEK, iga üksik verer~ohu m~o~otmie maksab 25 EEK. Uurigu, mille eesmärk o v~oimalikult täpselt m~o~ota eestlaste verer~ohkude keskväärtust µ-d) eelarve o 50 000 EEK. Mitu kordusm~o~otmist peaksime iimese kohta plaeerima m?) ja mitut iimest uurima k?), kui ekspertide arvates σ 2 ε 25 ja σ 2 γ 225?
5.2. ANOVA-MEETOD 39 5.2 ANOVA-meetod ANOVA-meetodit kasutasime eeltoodud dispersiooikompoetide hidamise äites. Sisaldagu vektor s ruutude summasid. Kui üüd iga ruutude summa keskväärtus o esitatav dispersiooikompoetide summa kaudu, Es) Cσ 2, kus σ 2 o tudmatuid dispersiooiparameetreid sisaldav vektor, siis v~oime saada tudmatutele parameetritele hiagud lahedades v~orradisüsteemi: mille lahediks o muidugi s Cˆσ 2, ˆσ 2 C s. Saadud hiagud o ihketa hiagud, kuid paraku v~oivad ad olla egatiivsed. ANOVA-hiagutel o palju häid omadusi lisaks ihketusele. Näiteks dispersiooaalüüsi-tüüpi mudelite korral pidevad tuused puuduvad), tasakaalulise admestiku puhul faktori igal tasemel tehtud sama arv m~o~otmisi, äiteks igal vaatlusööl sama arv m~o~otmisi/igas koolis sama arv m~o~otmisi) o ANOVA-hiagud parimad ihketa ruuthiagud st väikseima v~oimaliku dispersiooiga). Kui eeldame lisaks, et uuritav tuus o ormaaljaotusega, siis samadel tigimustel saab äidata, et ANOVA hiagud o parimad ihketa hiagud dispersiooiparameetritele Albert, 976). Kui admestik pole tasakaalulie v~oi sisaldab pidevaid tuuseid), siis pole miu teada teada, kuidas effektiivselt hiata dispersiooiparameetreid. 5.3 Suurima t~oepära meetod Üks v~oimalus parameetrite hidamiseks o kasutada suurima t~oepära meetodit. Selleks tuleb eeldada, et meie vaatlused o mitmem~o~otmelise) ormaaljaotusega juhuslikud suurused, Y NXβ;V ), 5.6) kus kovariatsiooimaatriks V s~oltub k-st tudmatust parameetrist, V V σ,σ 2,...,σ k ). Juhul, kui vaatleme oma valimit kui mitmem~o~otmelise ormaaljaotusega juhuslikku suurust, fy ) 2πV /2 exp ) 2 Y Xβ)T V Y Xβ) 5.7)
40 PEATÜKK 5. DISPERSIOONIMAATRIKSI V HINDAMISEST siis logaritmilie t~oepärafuktsioo avaldub kujul lβ, σ,...,σ k ) : lf l 2πV /2) 2 y Xβ)T V y Xβ) 5.8) ja meid huvitavad parameetrid β, σ,...,σ k valime selliselt, et meie poolt ähtud valimi tekkimise t~oeäosus oleks maksimaale. Selleks peame leidma t~oepärafuktsiooi tuletised parameetrite järgi ja lahedama saadud k + p v~orradit sisalduva v~orradisüsteemi parameetervektoris β o p parameetrit). Alustame β leidmisest: dl dβ T2;T3 2 y Xβ)T V X) 5.9) 2 βt X T V X + 2 yt V X 5.0) V~ordsustame saadud tuletise ulliga ja saame: 0 2 βt X T V X + 2 yt V X β T X T V X y T V X β T y T V XX T V X) β M2 X T V X) X T V y T Seega suurima t~oepära meetodil j~ouame sama parameetervektori hiagui, kui vähimruutude meetodi abil: ˆβ X T V X) X T V y, 5.) aiult et seekord täidab V rolli kovariatsiooimaatriksi hiag kui kovariatsiooimaatriks o teada, lageb tulemus muidugi täpselt vähimruutude meetodi hiaguga kokku). Saamaks hiagut V -le peame v~otma tuletised ka k~oigi tudmatute kovariatsiooiparameetrite järgi ja v~ordsustama saadud tuletised ulliga: dl dl 0,..., 0. dσ dσ k Seejärel tuleb kotrollida, kas saadud lahed o ikka maksimum v~ottes teised tuletised) ig samuti tuleb jälgida, kas saadud hiag jääb parameetrite v~oimalike lubatud) väärtuste piirkoda.
5.3. SUURIMA T~OEPÄRA MEETOD 4 Vaatame lähemalt olukorda, kus V V σ 2 +... + V kσk 2. Sellisel juhul l σ i 2 trv V i ) + 2 y Xβ)T V V i V y Xβ). Saadud tuletise v~ordsustamisel ulliga ei pruugi me veel saada vastuv~oetavat hiagut σi 2 -le. Nimelt ei pruugi tulemuseks saadud hiag kuuluda otsitava parameetri v~oimalike väärtuste piirkoda äiteks ˆσ i 2 < 0 aga tegelik parameeter σi 2 0). Sellisel juhul tuleb kasutada j~ouv~otteid parameetrite) hiagute) surumiseks lubatud piiridesse. Tüüpilie läheemie: v~otame parameetri, mille hiag tuli egatiive, väärtuseks 0, st viskame vastava parameetri mudelist välja. Seejärel hidame järgääud parameetrid uuesti. 5.3. Näide Vaatame hästi lihtsat mudelit: Y N. µ;iσ 2. Sellisel juhul l σ 2 2 trv V i ) + 2 y Xβ)T V V i V y Xβ) 2 tr/σ2 I) + 2 y Xβ)T y Xβ)/σ 2 ) 2 2σ 2 + 2σ 2 ) 2y Xβ)T y Xβ). Hiagu saamiseks v~ordsustame saadud tulemuse ulliga: 0 2σ 2 + 2σ 2 ) 2y X ˆβ) T y X ˆβ) 0 )σ 2 + y X ˆβ) T y X ˆβ) σ 2 y X ˆβ) T y X ˆβ). Kua X ˆβ XX T V X) X T V y y
42 PEATÜKK 5. DISPERSIOONIMAATRIKSI V HINDAMISEST vaata ka eelmise korra kodust ülesaet 2), siis σ 2 y X ˆβ) T y X ˆβ) σ 2 y i y) 2. i Saadud hiag o vaa tuttav suurima t~oepära hiag üldkogumi dispersiooile. Saadud hiag o ihkega hiag alahidab tegelikku dispersiooi), mis v~oib sageli tekitada probleeme. Küsimus tudegitele: miks o dispersiooi alahiag ohtlikum kui äiteks ülehiag?