Biomeetria 8. praktikum dispersioonanalüüs (ANOVA)

Seotud dokumendid
Microsoft PowerPoint - Loeng2www.ppt [Compatibility Mode]

Regressioonanalüüsi kodutöö Indrek Zolk 30. mai a. 1 Andmestiku kirjeldus Käesoleva kodutöö jaoks vajalik andmestik on saadud veebiaadressilt ht

Praks 1

Praks 1

VL1_praks6_2010k

Microsoft Word - Praks1.doc

ANOVA Ühefaktoriline dispersioonanalüüs Treeningu sagedus nädalas Kaal FAKTOR UURITAV TUNNUS Mitmemõõtmeline statistika Kairi Osula 2017/kevad

Microsoft PowerPoint - Loeng6ver2.ppt

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ann-Mari Koppel Determinatsioonikordaja ja prognoosikordaja Bakala

raamat5_2013.pdf

Microsoft PowerPoint - loeng2.pptx

Praks 1

DVD_8_Klasteranalüüs

Statistiline andmetöötlus

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Võrgupeo külastaja uurimine Andmeanalüüs I projekt Koostajad: Urma

TALLINNA TEHNIKAÜLIKOOL Majandusteaduskond Majandusanalüüsi ja rahanduse instituut Karl Ivar Maar TARBIMISMAKSUDE JA MAJANDUSKASVU SEOS EUROOPA LIIDU

Microsoft PowerPoint - Roosimaa.ppt

Ohtlike ainete sisaldus kalades

Pealkiri

DK_prax3_2010

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKATEADUSKOND MATEMAATILISE STATISTIKA INSTITUUT Kristi Läll Mitmemõõtmeline analüüs peptiidide käitumise uurimisek

10/12/2018 Riigieksamite statistika 2017 Riigieksamite statistika 2017 Selgitused N - eksaminandide arv; Keskmine - tulemuste aritmeetiline keskmine (

Pealkiri

vv05lah.dvi

AMB_Loeng1_andmed_a

(Microsoft Word - Purgatsi j\344rve supluskoha suplusvee profiil l\374hike)

Microsoft Word - Toetuste veebikaardi juhend

Mida me teame? Margus Niitsoo

lvk04lah.dvi

Microsoft Word - requirements.doc

G aiasoft Programmi VERP ja Omniva Arvekeskuse liidese häälestamine ja arvete saatmine-lugemine VERP 6.3 ja VERP 6.3E Versioon ja hilisemad K

VL1_praks2_2009s

Kliinilise keemia uuringud, südamemarkerite uuringud lapsed Kompleksanalüüsi nimetus Analüüsi nimetus Lühend Referentsväärtused Vanus Sugu

Mining Meaningful Patterns

Matemaatika ainekava 8.klass 4 tundi nädalas, kokku 140 tundi Kuu Õpitulemus Õppesisu Algebra (65 t.) Geomeetria (60 t.) Ajavaru kordamiseks (15 õppet

1 / loeng Tekstitöötlus Sisend/väljund Teksti lugemine Sõnad

AASTAARUANNE

Sissejuhatus GRADE metoodikasse

Microsoft Word - loeng8.doc

Relatsiooniline andmebaaside teooria II. 6. Loeng

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ingi Einaste Eesti kõrgkoolide matemaatika ja informaatika üliõpil

SQL

2016 aasta märtsi tulumaksu laekumine omavalitsustele See ei olnud ette arvatav Tõesti ei olnud, seda pole juhtunud juba tükk aega. Graafikult näeme,

Elisa Ring Elisa Ringi mobiilirakendus Versioon

II lisa Ravimi omaduste kokkuvõtte ja pakendi infolehe muudatused, esitatud Euroopa Ravimiameti poolt Käesolev ravimi omaduste kokkuvõte ja pakendi in

Tallinna linna sademevee kvaliteedi seire Tallinn

Microsoft PowerPoint - IRZ0020_praktikum4.pptx

Saksa keele riigieksamit asendavate eksamite tulemuste lühianalüüs Ülevaade saksa keele riigieksamit asendavatest eksamitest Saksa keele riigi

Microsoft PowerPoint - KESTA seminar 2013

normaali

ITI Loogika arvutiteaduses

Statistikatarkvara

Kaupmehed ja ehitusmeistrid Selle laiendusega mängimiseks on vajalik Carcassonne põhimäng. Laiendit võib mängus kasutada täielikult või osaliselt ning

Word Pro - digiTUNDkaug.lwp

Excel Valemite koostamine (HARJUTUS 3) Selles peatükis vaatame millistest osadest koosnevad valemid ning kuidas panna need Excelis kirja nii, et

Õppematerjalide esitamine Moodle is (alustajatele) seminar sarjas Lõunatund e-õppega 12. septembril 2017 õppedisainerid Ly Sõõrd (LT valdkond) ja Dian

Microsoft Word - QOS_2008_Tallinn_OK.doc

Funktsionaalne Programmeerimine

Andmed arvuti mälus Bitid ja baidid

Matemaatilised meetodid loodusteadustes. I Kontrolltöö I järeltöö I variant 1. On antud neli vektorit: a = (2; 1; 0), b = ( 2; 1; 2), c = (1; 0; 2), d

Microsoft Word - DEVE_PA_2012_492570_ET.doc

Microsoft Word - Karu 15 TERMO nr 527.doc

Operatsioonisüsteemi ülesanded

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKA TEADUSKOND Matemaatilise statistika instituut Cliona Georgia Dalberg Eesti elektritarbimise prognoos Magistritö

IDA-TALLINNA KESKHAIGLA Statsionaarsete patsientide rahulolu uuring

CSS juhend

Microsoft PowerPoint - Mart2.ppt

Itella Estonia OÜ Uuendatud EXPRESS BUSINESS DAY BALTICS PAKKIDE JA ALUSTE TRANSPORT Express Business Day Baltics paki lubatud maksimaalsed

Sorb_LC_Est.smu

Segamudelid2010.pdf

Sularahateenuse hinnastamise põhimõtted SRK 3 12_

Institutsioonide usaldusväärsuse uuring

Slide 1

Microsoft PowerPoint - MihkelServinski_rahvastikust.pptx

Tartu Ülikool Loodus- ja tehnoloogiateaduskond Ökoloogia ja Maateaduse instituut Geograafia osakond Lõputöö Inimeste ruumilise käitumise sõltuvus eluk

TARTU ÜLIKOOL MATEMAATIKA-INFORMAATIKATEADUSKOND MATEMAATILISE STATISTIKA INSTITUUT Astrid Haas Üldistatud lineaarne segamudel ESM-uuringu andmetele M

Treeningvõistlus Balti tee 2014 võistkonnale Tartus, 4. novembril 2014 Vastused ja lahendused 1. Vastus: 15, 18, 45 ja kõik 0-ga lõppevad arvud. Olgu

GRUPI-SMS Veebirakenduse kasutamise juhend Rakendus Elisa grupi-smsi rakendus Väljaandja Elisa Eesti AS Juhendi koostamise kuupäev Versioon

MS Word Sisukord Uue dokumendi loomine... 2 Dokumendi salvestamine... 3 Faili nimi... 4 Teksti sisestamine... 6 Klaviatuuril mitteleiduvat sümbolite l

ÕPETAJATE OSKUSED PIAAC ANDMETE BAASIL Aune Valk PIAAC (Programme for the International Assessment of Adult Competencies) uuringu raames va

efo03v2pkl.dvi

Mida räägivad logid programmeerimisülesande lahendamise kohta? Heidi Meier

Microsoft Word - installation-guide.doc

Slide 1

suojeluvihko_EST.indd

Kirjeldav_statistika_pdfiks

Õppeprogramm „vesi-hoiame ja austame seda, mis meil on“

1

prakt8.dvi

Automaatjuhtimise alused Automaatjuhtimissüsteemi kirjeldamine Loeng 2

CAPI-buss aruanne

EELNÕU

Microsoft Word - TM70_SP-MG_kasutusjuhend.docx

Microsoft PowerPoint - Niitmise_tuv_optiline_ja_radar.pptx

View PDF

Uudiseid k-meride abil bakterite leidmisest [Compatibility Mode]

Lisa 7.1. KINNITATUD juhatuse a otsusega nr 2 MTÜ Saarte Kalandus hindamiskriteeriumite määratlemine ja kirjeldused 0 nõrk e puudulik -

01_loomade tundmaõppimine

Väljavõte:

Kasutame jälle andmestikku fishcatch.dat: Biomeetria 8. praktikum dispersioonanalüüs (ANOVA) andmed=read.table("http://www.ms.ut.ee/mart/biomeetria2011/fishcatch.dat", header=true) Dispersioonanalüüs Soovime teada, kas kõigi kalaliikide kõrguste keskväärtused (tunnus Height, mõõdetud kui % kala pikkusest) on võrdsed või mitte, ehk tahame kontrollida järgmiseid hüpoteese: H 0 : E Height latikas = E Height siig = E Height särg =... = E Height ahven H 1 : leiduvad vähemalt kaks kalaliiki, mille kõrguste keskväärtused pole võrdsed. Dispersioonanalüüsi saab teha käsu lm()-abil: uuritav tunnus, mille keskväärtuseid võrdleme Faktortunnus, mis jagab vaatlused võrreldavateks gruppideks mudel=lm(height~factor(species)) Tulemuste vaatamine 1. Vaikimisi trükitakse välja kalaliikide keskmiste kõrguste erinevused latikate keskmisest kõrgusest: > mudel Latikate (Species=1) keskmine kõrgus on 39,5 (kõrgust on mõõdetud protsendina pikkusest) Call: lm(formula = Height ~ factor(species)) Ahvenate (Species=7) keskmine kõrgus on 13,3 võrra väiksem kui latikate oma (Intercept) factor(species)2 factor(species)3 factor(species)4 39.5257-10.3257-12.7907-0.2166 factor(species)5 factor(species)6 factor(species)7-22.6400-23.6845-13.2686 Biomeetria 8. praktikum (2011) Märt Möls 1

2. Näeme, et valimite keskmised erinevad teineteisest. Kas populatsioonide keskväärtused ka erinevad üksteisest? > drop1(mudel,test="f") Single term deletions Olulisustõenäosus on väiksem kui 0,05, järelikult leidub vähemalt kaks kalaliiki, mille kõrguste keskväärtused pole võrdsed Model: Height ~ factor(species) Df Sum of Sq RSS AIC F value Pr(F) <none> 393.5 158.1 factor(species) 6 10494.1 10887.6 674.0 675.64 < 2.2e-16 *** Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 3. Dispersioonanalüüsi mudelit võib uurida ka summary()-käsu abil, mille tulemusena trükitakse välja erinevused võrdlustasemega (latikate kõrgusega): > summary(mudel) Call: lm(formula = Height ~ factor(species)) Residuals: Min 1Q Median 3Q Max -4.95714-1.13500 0.01429 1.08260 4.97429 Estimate Std. Error t value Pr(> t ) (Intercept) 39.5257 0.2720 145.34 <2e-16 *** factor(species)2-10.3257 0.7109-14.52 <2e-16 *** factor(species)3-12.7907 0.4510-28.36 <2e-16 *** factor(species)4-0.2166 0.5561-0.39 0.697 factor(species)5-22.6400 0.5088-44.50 <2e-16 *** factor(species)6-23.6845 0.4756-49.80 <2e-16 *** factor(species)7-13.2686 0.3467-38.27 <2e-16 *** Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 1.609 on 152 degrees of freedom Multiple R-Squared: 0.9639, Adjusted R-squared: 0.9624 F-statistic: 675.6 on 6 and 152 DF, p-value: < 2.2e-16 Ahvenad on meie valimis keskmiselt latikatest 13,3 võrra väiksema kõrgusega Näitab kui täpselt me oleme hinnanud latikate ja ahvenate erinevust keskväärtuste erinevusele antud hinnangu standardhälve. T-testi abil kontrollitakse, kas latikate ja ahvenate kõrguste keskväärtused on teineteisest erinevad. Antud juhul võib keskväärtuste erinevuse tõestatuks lugeda. Biomeetria 8. praktikum (2011) Märt Möls 2

Võimalik on muuta ka võrdlustaset ehk gruppi, kellega teisi võrreldakse. Näiteks soovime võrrelda teiste kalade kõrguseid siigade (Species=2) kõrgustega: > summary(lm(height~relevel(factor(species),ref="2"))) Residuals: Min 1Q Median 3Q Max -4.95714-1.13500 0.01429 1.08260 4.97429 Estimate Std. Error t value Pr(> t ) (Intercept) 29.2000 0.6568 44.455 < 2e-16 *** relevel(factor(species), ref = "2")1 10.3257 0.7109 14.524 < 2e-16 *** relevel(factor(species), ref = "2")3-2.4650 0.7489-3.291 0.00124 ** relevel(factor(species), ref = "2")4 10.1091 0.8166 12.380 < 2e-16 *** relevel(factor(species), ref = "2")5-12.3143 0.7851-15.685 < 2e-16 *** relevel(factor(species), ref = "2")6-13.3588 0.7640-17.485 < 2e-16 *** relevel(factor(species), ref = "2")7-2.9429 0.6911-4.258 3.6e-05 *** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.609 on 152 degrees of freedom Multiple R-squared: 0.9639, Adjusted R-squared: 0.9624 F-statistic: 675.6 on 6 and 152 DF, p-value: < 2.2e-16 Ahvenad on meie valimis keskmiselt siigadest 3 ühiku võrra väiksema kõrgusega Eelduste kontroll 1. Kas dispersioonmudeli jäägid on normaaljaotusega? Mudeli jääke (kalade kõrguste erinevust oma grupi ehk oma kalaliigi keskmisest) saab vaadata resid()-käsu abil: resid(mudel) Seda, kas tegemist võiks olla normaaljaotusega, võime näiteks kontrollida kas tõenäosuspaberi või Shapiro- Wilki testi abil: qqnorm(resid(mudel)) qqline(resid(mudel)) ajut=resid(mudel) shapiro.test(ajut) 2. Kas uuritava tunnuse hajuvus kõigis gruppides on ligikaudu samasuur? Seda saab kontrollida näiteks vaadates, milline on uuritava tunnuse hajuvus kalaliigiti: tapply(height, Species, sd) või tapply(resid(mudel), Species, sd) Mis on vahet nende käskude tulemustel, miks? Biomeetria 8. praktikum (2011) Märt Möls 3

Uuritava tunnuse hajuvust grupiti ehk kalaliigiti saab võrrelda ka graafiliselt: boxplot(resid(mudel)~species) On võimalik ka teostada statistilist testi, mis kontrollib, kas uuritava tunnuse hajuvus grupiti on sama: > bartlett.test(resid(mudel)~factor(species)) Bartlett test for homogeneity of variances data: resid(mudel) by factor(species) Bartlett's K-squared = 11.9809, df = 6, p-value = 0.0624 Saame tulemuseks, et olulisustõenäosus on suurem 0,05-st (kuigi napilt) ja järelikult võime jääda oletuse juurde, et uuritava tunnuse hajuvus grupiti ei muutu. NB! Bartlett test eeldab, et uuritav tunnus oleks normaaljaotusega! Dispersioonanalüüsi tabel ja arvutuslikud seosed Kala kõrguse prognoosimisel tehtavate vigade ruutude summa, juhul kui me kala liiki ei tea ja prognoosimisel kasutada ei saa, on > sum((height-mean(height))**2) [1] 10887.56 Kui kasutame ka kala liiki kala kõrguse prognoosimisel, siis kahaneb prognoosivigade ruutude summa 393,5-ks võid seda väidet kontrollida ka käsuga sum(resid(mudel)**2), aga anova-käsk annab ka vastuse: > anova(mudel) Analysis of Variance Table Response: Height Df Sum Sq Mean Sq F value Pr(>F) factor(species) 6 10494.1 1749.0 675.64 < 2.2e-16 *** Residuals 152 393.5 2.6 Ehk, teisisõnu, oleme tänu liigi lisamisele prognoosivigade ruutude summat vähendanud 10887,56-393,5=10494,1 võrra. Jagatis 10494,1/10887,56=0,9638615 (prognoosi täpsuse suhteline paranemine) on sama mis determinatsioonikordaja: > summary(mudel) [...] Residual standard error: 1.609 on 152 degrees of freedom Multiple R-squared: 0.9639, Adjusted R-squared: 0.9624 F-statistic: 675.6 on 6 and 152 DF, p-value: < 2.2e-16 Biomeetria 8. praktikum (2011) Märt Möls 4

Loeme sisse Escherichia coli andmestiku mydata=read.table("http://www.ms.ut.ee/bda/m52orfs.txt", header=true) head(mydata) attach(mydata) Andmestiku lühikirjeldus on kättesaadav järgmiselt aadressilt: http://www.ms.ut.ee/bda/datadesc.pdf Peamised meid hetkel huvitavad tunnused: first_codon geeni esimene koodon cai Geeni Koodonikohastumusindeks CAI - see on üsna hästi korrelatsioonis antud valgu ekspressioonitasemega (valgu suhtelise esinemissagedusega) rakkudes orientation geeni suund kromosoomil Regression indikaatortunnustega = ANOVA Proovime korra läbi, et indikaatortunnust kasutav regressioonanalüüs annab sama tulemuse, mis dispersioonanalüüs. Esmalt teeme siiski ühe teisenduse mõistlik on kasutada logaritmitud cai väärtuseid, sestap transformeerime esmalt selle tunnuse: lcai=log(cai) Seejärel tekitame indikaatortunnuse ind=0, kui orientation on < ; ind=1, kui orientation on > : ind=1*(orientation== ">") Keskmine lcai on veidi erinev eripidi kirjapandud geennide jaoks: by(lcai, orientation, mean) Hindame regressioonmudeli kasutades indikaatortunnust: m1=lm(lcai~ind) summary(m1) Kas suudad leida mõlema grupi keskmised kasutades vaid summary-käsu poolt antud informatsiooni? Enamasti ei pea sa indikaatortunnust ise tekitama. Võrdle eelmise käsu poolt tagastatud tulemusi järgmise, dispersioonanalüüsi tulemustega: summary(lm(lcai~factor(orientation))) Antud juhul (2 gruppi) oleks sama vastuseni olnud võimalik jõuda ka t-testi abil: t.test(lcai~orientation, var.equal=true) Biomeetria 8. praktikum (2011) Märt Möls 5

Harjutus Vaata järgmist väljundit (teil pole ligipääsu antud tunnustele/andmetele, seega piirduge praegu vaid esitatud analüüsi väljundiga: > summary(lm(expression~factor(treatment))) Call: lm(formula = Expression ~ factor(treatment)) Residuals: Min 1Q Median 3Q Max -282.241-63.892-4.897 64.105 341.040 Estimate Std. Error t value Pr(> t ) (Intercept) 5499.83 13.70 401.37 <2e-16 *** factor(treatment)b -1479.14 19.38-76.33 <2e-16 *** factor(treatment)c -490.43 19.38-25.31 <2e-16 *** Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 96.89 on 147 degrees of freedom Multiple R-Squared: 0.9763, Adjusted R-squared: 0.9759 F-statistic: 3023 on 2 and 147 DF, p-value: < 2.2e-16 Kasutades esitatud väljatrükki, vastake järgmisele küsimusele: Milline on keskmine ekspressioonitase grupi A jaoks: keskmine ekspressioonitase grupi B jaoks: keskmine ekspressioonitase grupi C jaoks: Ülesanne Uuri, kas Escherichia coli puhul on keskmine ekspressioonitase erinev erinevate alguskoodonite puhul. Kasuta selleks ühefaktorilist dispersioonanalüüsi: model=lm(lcai~factor(first_codon)) summary(model) Milline on sinu otsus? Proovi ka käsku: drop1(model, test= F ) Biomeetria 8. praktikum (2011) Märt Möls 6

R kasutab vaikimisi alati esimest faktori taset võrdlustasemena: > levels(factor(first_codon)) [1] "aat" "atg" "att" "ctg" "gtg" "ttg" võrdluse aluseks kasutatav tase Võrdluse aluseks valitavat taset (referentstaset) saab muuta. Valime alguskoodoni atg (kõige sagedamini esinev alguskoodon) võrdlustasemeks: > model=lm(lcai~relevel(factor(first_codon),ref="atg")) > summary(model) Residuals: Min 1Q Median 3Q Max -1.33919-0.18122-0.01407 0.16331 1.02472 atg ja aat võrdlus Estimate Std. Error t value Pr(> t ) (Intercept) -1.131818 0.004803-235.651 < 2e-16 *** relevel(factor(first_codon), ref = "atg")aat -0.017910 0.285967-0.063 0.950 relevel(factor(first_codon), ref = "atg")att 0.134050 0.285967 0.469 0.639 relevel(factor(first_codon), ref = "atg")ctg -0.505684 0.285967-1.768 0.077. relevel(factor(first_codon), ref = "atg")gtg -0.094878 0.012507-7.586 4.03e-14 *** relevel(factor(first_codon), ref = "atg")ttg -0.122599 0.025533-4.802 1.63e-06 *** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.2859 on 4284 degrees of freedom Multiple R-squared: 0.01809, Adjusted R-squared: 0.01694 F-statistic: 15.79 on 5 and 4284 DF, p-value: 1.960e-15 Proovi, mis juhtub, kui kasutad võrdluse aluseks taset gtg! Veel näiteid. Teeme uue grupeeriva tunnuse (näitab, kas geen kodeerib väga aluselist/ aluselist/ happelist väga happelist valku): pigroup=rep(na, length(pi)) pigroup[pi<5.6]="a" pigroup[pi>=5.6 & pi<7]="b" pigroup[pi>=7 & pi<9]="c" pigroup[pi>=9]="d" table(pigroup) summary(lm(lcai~factor(pigroup))) Katsetame Tukey mitmese võrdluse meetodit (antud kujul eeldab ligikaudu samasuuruseid gruppe): TukeyHSD(aov(lm(lcai~factor(pIGroup)))) plot(tukeyhsd(aov(lm(lcai~factor(pigroup))))) Biomeetria 8. praktikum (2011) Märt Möls 7

Võrdle TukeyHSD käsuga saadud erinevusi (eelkõige gruppide C ja D vaheline erinevus) nendega, mille saad, kui teed dispersioonanalüüsi ja võtad võrdluse aluseks grupi C. Kas hinnang gruppide C ja D keskväärtuste arinevusele tuleb sama? Kas olulisustõenäosus tuleb sama? Kui näed erinevusi, siis põhjenda, millest on erinevus tingitud! Kui kasutaksid Bonferroni korrektsiooni (korrutaksid olulisustõenäosuse läbi kõigi võrdluste arvuga), siis millist olulisustõenäosust näeksid? Praegu on tegemist üsna sarnase suurusega gruppidega (kõiki pigroup väärtuseid on ligilähedaselt samapalju). Kui gruppide suurused oleksid märkimisväärselt erinevad (ühes grupis 10, teises 1000 vaatlust), pole TukeyHSD-käsu tulemused enam parimad võimalikud (intervallid ja testid võivad osutuda veidi konservatiivseteks). Sellisel juhul oleks targem võrdlused läbi viia kasutades lisamooduli multcomp funktsioone. Selleks esmalt lisame R-le lisamooduli multcomp : install.packages("multcomp") Peale lisamooduli installeerimist võtame ta kasutusele: library(multcomp) ja kasutame teda (lisandunud on funktsioon glht): fpig=factor(pigroup) m1=aov(lm(lcai~fpig)) a=glht(m1, linfct=mcp(fpig="tukey")) summary(a) confint(a) plot(confint(a)) Antud andmestiku puhul tulevad multcomp-abil saadud analüüsi tulemused üsnagi sarnased TukeyHSDkäsu tulemustele. Biomeetria 8. praktikum (2011) Märt Möls 8