Microsoft PowerPoint - Loeng2www.ppt [Compatibility Mode]

Seotud dokumendid
Microsoft PowerPoint - Loeng6ver2.ppt

Regressioonanalüüsi kodutöö Indrek Zolk 30. mai a. 1 Andmestiku kirjeldus Käesoleva kodutöö jaoks vajalik andmestik on saadud veebiaadressilt ht

Praks 1

Praks 1

Microsoft Word - Praks1.doc

raamat5_2013.pdf

VL1_praks6_2010k

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ann-Mari Koppel Determinatsioonikordaja ja prognoosikordaja Bakala

Praks 1

Segamudelid2010.pdf

Statistiline andmetöötlus

ANOVA Ühefaktoriline dispersioonanalüüs Treeningu sagedus nädalas Kaal FAKTOR UURITAV TUNNUS Mitmemõõtmeline statistika Kairi Osula 2017/kevad

TALLINNA TEHNIKAÜLIKOOL Majandusteaduskond Majandusanalüüsi ja rahanduse instituut Karl Ivar Maar TARBIMISMAKSUDE JA MAJANDUSKASVU SEOS EUROOPA LIIDU

Matemaatiline analüüs IV 1 3. Mitme muutuja funktsioonide diferentseerimine 1. Mitme muutuja funktsiooni osatuletised Üleminekul ühe muutuja funktsioo

Microsoft PowerPoint - loeng2.pptx

Matemaatilised meetodid loodusteadustes. I Kontrolltöö I järeltöö I variant 1. On antud neli vektorit: a = (2; 1; 0), b = ( 2; 1; 2), c = (1; 0; 2), d

Mining Meaningful Patterns

Sissejuhatus GRADE metoodikasse

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKATEADUSKOND MATEMAATILISE STATISTIKA INSTITUUT Astrid Haas Üldistatud lineaarne segamudel ESM-uuringu andmetele M

Itella Estonia OÜ Uuendatud EXPRESS BUSINESS DAY BALTICS PAKKIDE JA ALUSTE TRANSPORT Express Business Day Baltics paki lubatud maksimaalsed

VL1_praks2_2009s

Osakogumite kitsendustega hinnang Kaja Sõstra 1 Eesti Statistikaamet Sissejuhatus Valikuuringute üheks oluliseks ülesandeks on osakogumite hindamine.

elastsus_opetus_2017_ptk3

Relatsiooniline andmebaaside teooria II. 6. Loeng

vv05lah.dvi

12. Marek Kolk, Kõrgem matemaatika, Tartu Ülikool, Algfunktsioon ja määramata integraal Sisukord 12 Algfunktsioon ja määramata integraal 1

10/12/2018 Riigieksamite statistika 2017 Riigieksamite statistika 2017 Selgitused N - eksaminandide arv; Keskmine - tulemuste aritmeetiline keskmine (

TARTU ÜLIKOOL Arvutiteaduse instituut Informaatika õppekava Laura Ruusmann Gaussi protsesside usaldusvahemik Bakalaureusetöö (9 EAP) Juhendaja: Meelis

Sorb_LC_Est.smu

Tehniline andmeleht Sadulventiilid (PN 16) VRG 2 2-tee ventiil, väliskeermega VRG 3 3-tee ventiil, väliskeermega Kirjeldus Ventiilid on kasutatavad ko

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKA TEADUSKOND Matemaatilise statistika instituut Cliona Georgia Dalberg Eesti elektritarbimise prognoos Magistritö

Suunised Euroopa turu infrastruktuuri määruse (EMIR) kohaste kesksetele vastaspooltele suunatud protsüklilisusvastaste tagatismeetmete kohta 15/04/201

Sissejuhatus mehhatroonikasse MHK0120

1/ Lüliti REVAL BULB 230V, IR puldiga 300W IP20 Tootekood Jaehind 23,32+KM Soodushind 10,00+KM Bränd REVAL BULB Toide 230V Võimsus

elastsus_opetus_2013_ptk2.dvi

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Võrgupeo külastaja uurimine Andmeanalüüs I projekt Koostajad: Urma

Tallinna patsient valikute ristmikul

2016 aasta märtsi tulumaksu laekumine omavalitsustele See ei olnud ette arvatav Tõesti ei olnud, seda pole juhtunud juba tükk aega. Graafikult näeme,

Microsoft Word - Iseseisev töö nr 1 õppeaines.doc

Microsoft PowerPoint - Konjunktuur nr 3 (194) pressile marje .ppt

MATEMAATILINE ANALÜÜS I. ESIMESE KONTROLLTÖÖ NÄITEÜLESANDED (1) Leida funktsiooni y = sin x + ln(16 x 2 ) määramispiirkond. (2) Leida funktsiooni y =

MTAT Operatsioonisüsteemid - Turvalisus

lvk04lah.dvi

M16 Final Decision_Recalculation of MTR for Elisa

Microsoft Word - Lisa1 , Eramu piirded _LK1-7_.doc

Microsoft Word - QOS_2008_Tallinn_OK.doc

AMB_Loeng1_andmed_a

VRB 2, VRB 3

TARTU ÜLIKOOL Arvutiteaduse instituut Informaatika õppekava Karl Riis Bayesi isotoonilise kalibreerimise algoritm ja selle optimeerimine Bakalaureuset

Peugeot Boxer eriversioonid Hinnad ja varustused Diisel Mootor ja kere Käigukast Võimsus (kw/hj) Keskmine kütusekulu (l/100km) VARUSTUSTASE Varustusta

Slide 1

(10. kl. I kursus, Teisendamine, kiirusega, kesk.kiirusega \374lesanded)

TÄISKASVANUTE UNEHÄIRETE ESMANE DIAGNOSTIKA JA RAVI TÖÖRÜHMA JA SEKRETARIAADI TÖÖKOOSOLEKU PROTOKOLL nr. 10 Kuupäev 2. mai 2018 Koht Dorpati konverent

Ecophon Master Rigid A Sobib klassiruumi ja kohtadesse, kus hea akustika ja kõnest arusaadavus on esmatähtsad ning avatavus vajalik. Ecophon Master Ri

Suunised Reitinguagentuuride meetodite valideerimise ja läbivaatamise suunised 23/03/2017 ESMA/2016/1575 ET

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKATEADUSKOND MATEMAATILISE STATISTIKA INSTITUUT Kristi Läll Mitmemõõtmeline analüüs peptiidide käitumise uurimisek

Tarvikud _ Puhurid ja vaakumpumbad INW külgkanaliga Air and Vacuum Components in-eco.co.ee

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ingi Einaste Eesti kõrgkoolide matemaatika ja informaatika üliõpil

m

Microsoft Word - KOV_uuringu_analyys.doc

VRG 2, VRG 3

M16 Final Decision_Recalculation of MTR for EMT

Microsoft PowerPoint - Niitmise_tuv_optiline_ja_radar.pptx

Väljaandja: Keskkonnaminister Akti liik: määrus Teksti liik: terviktekst Redaktsiooni jõustumise kp: Redaktsiooni kehtivuse lõpp:

Lisa Viiratsi Vallavolikogu a määrusele nr 66 VIIRATSI VALLA EELARVESTRATEEGIA AASTATEKS Viiratsi 2012

OÜ Lemonsport Hummel spordivarustus Raplamaa JK õpilastele ja pereliikmetele Valik september Jalgpallikooli võistlus- ja treeningvarustus 20

KOMISJONI MÄÄRUS (EL) 2019/ 316, veebruar 2019, - millega muudetakse määrust (EL) nr 1408/ 2013, milles käsitletakse Euroopa L

Tõendusmaterjali kvaliteedi hindamine

ATAP4_töökava

Image segmentation

Slide 1

Kliinilise keemia uuringud, südamemarkerite uuringud lapsed Kompleksanalüüsi nimetus Analüüsi nimetus Lühend Referentsväärtused Vanus Sugu

IMO 2000 Eesti võistkonna valikvõistlus Tartus, aprillil a. Ülesannete lahendused Esimene päev 1. Olgu vaadeldavad arvud a 1, a 2, a 3,

PowerPoint Presentation

Microsoft PowerPoint - MihkelServinski_rahvastikust.pptx

loeng7.key

4. Kuumaveeboilerid ja akumulatsioonipaagid STORACELL Kuumaveeboilerid STORACELL ST 120-2E, ST 160-2E...88 STORACELL SKB 160, STORACELL SK 12

ins_selftec_est_1104_CC.cdr

MergedFile

ARENGUVESTLUSED COACHINGU PRINTSIIPE SILMAS PIDADES Arendava vestluste printsiibid: Eneseanalüüs, keskendumine tugevustele, julgustamine, motiveeriv e

Microsoft Word - 56ylesanded1415_lõppvoor

ARUANDE

efo09v2pke.dvi

B120_10 estonian.cdr

Statistikatarkvara

Lugu sellest, kuidas me „Murdepunktini“ jõudsime ja mis edasi sai Anne Õuemaa, Eesti ANK projektijuht

Ajutised bussiliinid laupäev

Norrison Ametikudumid, Professional knitwear.cdr

Infix Operaatorid I Infix operaatorid (näiteks +) ja tüübid (näiteks ->) kirjutatakse argumentide vahele, mitte argumentide ette. Näiteks: 5 + 2, 2*pi

Mida me teame? Margus Niitsoo

1-69_.pdf

Microsoft Word - Raudhobu eestikeelne tootekataloog.doc

Väljavõte:

Biomeetria 2. loeng Lihtne lineaarne regressioon mudeli hindamisest; usaldusintervall; prognoosiintervall; determinatsioonikordaja; Märt Möls martm@ut.ee Y X=x~ N(μ=10+x; σ=2) y 10 15 20 2 3 4 5 6 7 8 x 1

40 60 80 100 120 150 160 170 180 190 200 pikkus (cm) kaal (kg) 40 60 80 100 120 kaal (kg) 150 160 170 180 190 200 pikkus (cm) 2

Regressioonanalüüsi mudel(id) Y X=x ~ N(μ=c 0 +c 1 x; σ=σ ε ) Y ~ N(μ=c 0 +c 1 x; σ=σ ε ) Y = c 0 +c 1 x + ε; ε~ N(0; σ ε ) EY = c 0 +c 1 x c 0, c 1 väärtused hinnatakse suurima tõepära meetodi abil c 1 =1.055 0.5 1.0 c 1 1.5 2.0 kaal 40 60 80 100 120 kaal = 117.4+1.055pikkus 150 160 170 180 190 200 pikkus 3

Alternatiivne interpretatsioon Õnn 5 6 7 8 n i=1 ε i ε i 2 =44.2 0 1 2 3 Kokaiinitarbijate protsent 4

Õnn 5 6 7 8 Milline sirge on kõigist sirgetest parim? n i=1 n i=1 ε i ε i 2 =44.2 ε i 2 =42.4 0 1 2 3 Kokaiinitarbijate protsent Õnn 5 6 7 8 n i=1 n i=1 n i=1 ε i ε i 2 =44.2 ε i 2 =42.4 ε i 2 =39.3 0 1 2 3 Kokaiinitarbijate protsent 5

Sama sirge Y ~ N(μ=c 0 +c 1 x; σ=σ ε ), sõltumatud vaatlused. otsime c 0 ja c 1 väärtuseid mille puhul nähtud andmete saamise tõenäosus oleks kõige suurem; Otsime sirget y=c 0 +c 1 x, mille puhul prognoosivigade ruutude summa oleks minimaalne; EY=c 0 +c 1 x, DY=σ ε, vaatlused sõltumatud. Otsime kõige täpsemat (lineaarset) nihketa hinnangutc 0 +c 1 x le Kas (lineaarne)seos Yja X vahel eksisteerib? Kas Y ~ N(μ=c 0 +c 1 x; σ=σ ε ) või Y ~ N(μ=c 0 ; σ=σ ε )? 6

Mida prognoosime Mille abil prognoosime > mudel=lm(kaal~pikkus) > summary(mudel) [...] Kas c 0 võib olla 0? Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -117.36675 6.33019-18.54 <2e-16 *** pikkus 1.05474 0.03695 28.54 <2e-16 *** [...] Kas c 1 võib olla 0? Mida prognoosime Mille abil prognoosime > mudel=lm(kaal~pikkus) > summary(mudel) [...] Kas c 0 võib olla 0? Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -117.36675 6.33019-18.54 <2e-16 *** pikkus 1.05474 0.03695 28.54 <2e-16 *** [...] Kas c 1 võib olla 0? > confint(mudel) 2.5 % 97.5 % (Intercept) -129.7967014-104.936795 pikkus 0.9821798 1.127295 95% usaldusintervallid 7

> predict(mudel, newdata=data.frame(pikkus=170)) 1 170cm pikkuste inimeste kaalude keskväärtus (hinnang) 61.93859 > predict(mudel, newdata=data.frame(pikkus=170), interval="confidence") Kui täpselt me teame 170cm pikkuste fit lwr upr inimeste kaalude keskväärtust? 1 61.93859 61.3231 62.55408 > predict(mudel, newdata=data.frame(pikkus=170), interval="prediction") fit lwr upr Kui täpselt me teame 170cm 1 61.93859 46.29655 77.58063 pikkuse inimese (Jaani) kaalu? > install.packages("gmodels") > library(gmodels) > estimable(mudel, c(1,170)) Estimate Std. Error t value DF Pr(> t ) (1 170) 61.93859 0.3134512 197.602 654 0 > estimable(mudel, c(1,170), conf.int=0.95) Estimate Std. Error t value DF Pr(> t ) Lower.CI Upper.CI (1 170) 61.93859 0.3134512 197.602 654 0 61.3231 62.55408 Estimable -käsust Võimalik kasutada keerukamate mudelite juures; Võimalik kasutada keerukamate küsimuste jaoks (milline on 170cm ja 160cm pikkuste tudengite keskmiste kaalude erinevus?) > estimable(mudel, c(1-1,170-160), conf.int=0.95) Estimate Std. Error t value DF Pr(> t ) Lower.CI Upper.CI (0 10) 10.54737 0.369513 28.54398 654 0 9.821798 11.27295 8

Kui täpselt me teame parimat sirget? Õnn 5 6 7 8 Usaldusintervall (Confidence Interval) regressioonisirgele 95% pointwise confidence interval 0 1 2 3 Kokaiinitarbijate protsent Kui täpne on meie prognoos? Õnn 5 6 7 8 Prognoosiintervall (Prediction Interval) 0 1 2 3 Kokaiinitarbijate protsent 9

kaal 40 60 80 100 120 c x~y = c y~x D(X)/D(Y) Pikkuse prognoos kaalu järgi Kaalu prognoos pikkuse järgi 150 160 170 180 190 200 pikkus Seose tugevuse / mudeli prognoosivõime iseloomustamine Tugev seos Nõrk seos y 15 20 25 30 35 E(Y)=10+x y 15 20 25 30 35 E(Y)=10+x 10 12 14 16 18 20 10 12 14 16 18 20 x x 10

> summary(mudel) Tegelik Prognoos (tegelik kaal pikkuse järgi prognoositud kaal) Residuals: Min 1Q Median 3Q Max -17.814-5.361-1.220 3.499 40.295 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -117.36675 6.33019-18.54 <2e-16 *** pikkus 1.05474 0.03695 28.54 <2e-16 *** Residual standard error: 7.96 on 654 degrees of freedom (1 observation deleted due to missingness) Multiple R-squared: 0.5547, Adjusted R-squared: 0.554 F-statistic: 814.8 on 1 and 654 DF, p-value: < 2.2e-16 Residual standard error: 7.96 > predict(mudel, data.frame(pikkus=170)) 1 61.93859 > predict(mudel, data.frame(pikkus=170))-2*7.96 1 46.01859 > predict(mudel, data.frame(pikkus=170))+2*7.96 1 77.85859 > predict(mudel, data.frame(pikkus=170), interval="prediction") fit lwr upr 1 61.93859 46.29655 77.58063 11

Determinatsioonikordaja Mudel 1: Y= c 0 + ε 1 Mudel 2: Y= c 0 + c 1 x+ ε 2 Dε 1 -iseloomustab lihtsama mudeli prognooside täpsust Dε 2 -iseloomustab keerukama mudeli prognoositäpsust Dε 1 -Dε 2 -täpsuse suurenemine tänu x-tunnuse teadmisele (Dε 1 -Dε 2 )/Dε 1 -suhteline võit prognoositäpsuses R 2 tegelik= (Dε 1 -Dε 2 )/Dε 1 Y= c 0 + ε 1 D(Y) = D(c 0 + ε 1 ) = D(ε 1 ) R 2 tegelik= (DY-Dε 2 )/DY 12

R 2 ja R 2 adjusted (kohandatud R2 ) R 2 tegelik= (DY-Dε 2 )/DY Vaja hinnata. DYhidamisega probleeme pole, Dε 2 hindamisega küll. Kasutades nihkega ( vale ) hinnangut Dε 2 le, saame determinatsioonikordaja R 2. Kasutades nihketa ( õiget ) hinnangut Dε 2 le, saame kohandatud determinatsioonikordaja R 2 adjusted. > summary(lm(kaal~pikkus)) [...] Residual standard error: 7.96 on 654 degrees of freedom (4 observations deleted due to missingness) Multiple R-squared: 0.5547, Adjusted R-squared: 0.554 > Dkaal=var(kaal, na.rm=true) > (Dkaal-7.96**2)/Dkaal [1] 0.5540274 13

y 0 5 10 15 20 25 30 DY=0.8 De=0.01 R2 =0.99 y=10+2*x+ε 0 1 2 3 4 5 x y 0 5 10 15 20 25 30 DY=1.3 De=0.5 R 2 =0.62 y=10+2*x+ε 0 1 2 3 4 5 x 14

y 0 5 10 15 20 25 30 DY=2.8 De=2 R 2 =0.29 y=10+2*x+ε 0 1 2 3 4 5 x y 0 5 10 15 20 25 30 DY=30.8 De=30 R 2 =0.03 y=10+2*x+ε 0 1 2 3 4 5 x 15

Determinatsioonikordajaga manipuleerimine Determinatsioonikordaja on eelkõige interpreteeritav siis, kui uuritav valim on tõepoolest juhuslik valim mingist populatsioonist. Kui uuritavad andmed on kogutud eksperimenteerides (olukorras, kus me ise otsustame, millised saavad olema X-tunnuse väärtused) on determinatsioonikordaja R 2 teatavates piirides eksperimentaatori enda valida/otsustada. Kaalu prognoosimine pikkuse järgi. Juhuslik valim:r 2 =0,55 kaal 40 60 80 100 120 R 2 =0.55 150 160 170 180 190 200 pikkus 16

Kuidas suurendada või vähendada determinatsioonikordajat? KAAL= c0 + c1 PIKKUS + e. Determinatsioonikordaja R 2 = 1 D(e)/D(KAAL). Vaja oleks kas muuta D(e) või D(KAAL) väärtust. Antud näites on lihtsam muuta D(KAAL) väärtust: D(KAAL) = c 12 D(PIKKUS)+ D(e) Valides uuringusse väga erinevate pikkustega tudengeid saame suure R 2 väärtuse, valides sarnase pikkusega tudengeid saame väikese R 2 väärtuse. Pikkus<155cm või pikkus >190cm R 2 =0,86 kaal 40 60 80 100 120 R 2 =0.86 150 160 170 180 190 200 pikkus 17

Pikkus>170cm ja pikkus <180cm R 2 =0,2 kaal 40 60 80 100 120 R 2 =0.2 150 160 170 180 190 200 pikkus > mudelmees=lm(kaal~pikkus, data=kokku2[sugu==2,]) > summary(mudelmees) Multiple R-squared: 0.3704, Adjusted R-squared: 0.3661 > mudelnaine=lm(kaal~pikkus, data=kokku2[sugu==1,]) > summary(mudelnaine) Multiple R-squared: 0.2968, Adjusted R-squared: 0.2954 > mudel=lm(kaal~pikkus, data=kokku2) > summary(mudel) Multiple R-squared: 0.5547, Adjusted R-squared: 0.554 18