Andmeanalüüs molekulaarbioloogias LOMR.10.007 1. nädal Loeng: Töökorraldus ja materjalid Teaduslik mõtteviis Andmete tüübid Andmete varieeruvuse kirjeldamine Praktikum: Sagedusjaotuste joonistamine Maido Remm
Töökorraldus 5 nädalat loengut ja praktikume + 1 proovieksam koos tulemuste arutelu ja kordamisega. Aine hinne kujuneb eksami punktidest (0-100). Lisapunkte on võimalik saada küsimuste küsimise eest loengus (1 punkt inimese kohta igas loengus). Eksam sisaldab ainult praktilisi ülesandeid, aeg on limiteeritud (1 tund ja 45 minutit). Eelnevalt teeme proovieksami (19.03.2018) koos tulemuste aruteluga. Toimub ainult üks korduseksam F-idele ja mitteilmunuile. Potentsiaalsed eksamiajad on järgmised: E 26.03.2018 kell 14.15-16.00 T 06.04.2018 kell 12.15-14.00
Peamiseks õppematerjaliks on raamat: Õppematerjalid Harvey Motulsky: Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking (2009) Vajalikud raamatute peatükid on kättesaadavad aadressil: http://bioinfo.ut.ee/amb/amb_lomr.10.007/ kasutajanimi: kursus salasõna: amb2013 Loengute slaidid ja praktikumide materjalid veebilehel http://bioinfo.ut.ee/amb/
Praktikum Praktikumis (ja eksamil) vajalik arvuti ning programm OpenOffice või Excel INSTALLEERIGE SEE ENDA ARVUTISSE Praktikumi peamine eesmärk on harjutada eksamil vaja minevaid oskusi.
Esimese nädala teemad 1. Mida kujutab endast teaduslik (tõenduspõhine) uurimistöö 2. Miks on teaduslikus töös vaja hüpoteese? 3. Andmete tüübid 4. Andmete varieeruvus ja selle visualiseerumine
Tähelepanek Teaduslik (tõenduspõhine) mõtteviis Uurimisküsimus Testitava hüpoteesi sõnastamine Teaduslikus mõtteviisis on kesksel kohal hüpoteeside testimine. Hüpoteesi kontrollimine (katse või vaatlus) Artikkel Üldistav teooria
Tähelepanek Maratonijooksjate hulgas on palju tuttavaid TÜ-st Uurimisküsimus Kas ja kuidas on maratoni jooksmine seotud intelligentsusega? Hüpoteetiline näide hüpoteeside testimisest Testitava hüpoteesi sõnastamine 1 Hariduse omandamiseks kulutatud aastate arv kahel inimeste grupil: [jooksjad] vs [mitte-jooksjad] EI OLE ERINEV Testitava hüpoteesi sõnastamine 2 Kas hariduse omandamiseks kulutatud aastate arv kahel inimeste grupil: [pikamaajooksjad] vs [muude spordialadega tegelejad] EI OLE ERINEV Testita sõna Kas harid kulutatu inim [pikamaaj spordia EI Hüpoteesi kontrollimine 1 Hüpoteesi kontrollimine 2 Hü kontr Teaduslikus mõtteviisis on kesksel kohal hüpoteeside testimine. Artikkel
Teaduslik (tõenduspõhine) mõtteviis Tähelepanek Hüpoteesivabad meetodid (andmeteadus) Uurimisküsimus Testitava hüpoteesi sõnastamine Hüpoteesi kontrollimine (katse või vaatlus) Andmetöötluse programmid (mustriotsing, visualiseerimine, vms) kasutavad andmete ikkagi töötlemisel hüpoteese, kuid programmide kasutaja ei pruugi neid näha (implicit hypothesis vs explicit hypothesis) Artikkel Üldistav teooria
2. Miks on vaja testitavaid hüpoteese? Miks on vaja sõnastada numbriliselt testitav hüpotees? Inimese aju ei ole harjunud mõtlema tõenäosustest. Inimese aju on ehitatud nii, et suudaks kergesti leida andmete hulgas mustreid. Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja optimistlikult.
Inimese aju ei ole harjunud mõtlema tõenäosustest. Liituge Starmani DigiTV-ga ja teil on võimalik võita pilet Arsenali ja Manchester United i mängule. Tellige ajaleht Eesti Ekspress vähemalt kolmeks kuuks ja võite võita tasuta reisi Uus-Meremaale koos kaaslasega. Head and Shoulders vähendab kõõma kuni 100%.
Milliseid lahendusi pakub andmete analüüsimiseks statistika? Statistika annab andmete analüüsijale mõned tööriistad hindamaks leitud tulemuse usaldusväärtust. Peamine statistika abil lahendatav küsimus on: Kas saadud tulemus võis olla juhus? Seega kaitseb statistika meid ennatlike, liiga lihtsustatud järelduste tegemise eest olukorras, kus see ei ole põhjendatud.
Teadus vajab usaldusväärsust Teaduslik mõtteviis on ratsionaalne, põhinedes loogikal ja statistikal. Igal teaduslikul järeldusel peab olema faktiline kinnitus. Teaduses ei saa järeldusi teha esmase mulje või uskumise põhjal. Kui osad teadlased ei pea teaduslikust mõtteviisist kinni, muutub teatud hulk teadustulemustest ebausaldusväärseks. Kui teatud hulk teadustulemustest on ebausaldusväärne, siis ei saa enam ühtegi teadustulemust usaldada. Kui teadustulemused ei ole usaldusväärsed, siis pole teaduse järgi enam vajadust.
Kokkuvõtteks: Andmete kogumisel ja analüüsimisel tuleb järgida kindlaid reegleid, sest: 1. Inimese aju ei ole harjunud mõtlema tõenäosustest. 2. Inimese aju on ehitatud nii, et suudaks kergesti leida andmete hulgas mustreid. 3. Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja optimistlikult. Statistiline mõtteviis kaitseb meid liigoptimistlike järelduste eest.
3. Andmete tüübid Analüüsimise meetod sõltub sellest, millist tüüpi on meie poolt kasutatavad andmed: Kas uuritavat objekti iseloomustavad tunnused on väljendatavad arvude või sõnadega? Kui sõnadena, siis kas need on järjestatavad?
Põhilised muutujate tüübid Nimetatavad (Nominal, Categorical) - lihtsaim alamtüüp on binaarne muutuja (kaks võimalikku olekut) Järjestatavad (Ordinal) Pidevad (Continuous)
Mida võib teha erinevat tüüpi muutujatega? Saab arvutada: Nimetatav (nominal) muutuja Järjestatav (ordinal) muutuja Pidev (continuous) muutuja Liita ja lahutada EI EI JAH Jagada ja korrutada EI EI JAH/EI Mediaan, kvartiilid, protsentiilid Keskväärtus, standardhälve, standardviga Tulpdiagramm sagedustega EI JAH JAH EI EI JAH JAH JAH JAH
Mis tüüpi on meie muutujad? Muutuja tüüp ei pruugi alati olla üheselt defineeritav. Näiteks värve saab andmestikus kirjeldada nii nominaalse, ordinaalse kui ka pideva muutujana. Muutuja tüübi valik on uurija loominguline otsus. Samas see otsus mõjutab tugevasti kogu järgnevat analüüsi. AMB ainekursuse raames tegeleme peamiselt: binaarsete nominaalmuutujate (JAH/EI) pidevmuutujate (täis- või murdarvud laiemas vahemikus) analüüsimisega.
Kokkuvõte muutuja tüüpidest Muutujad võivad olla nominaalset, ordinaalset või pidevat tüüpi. Erinevat tüüpi muutujate jaoks on erinevad analüüsi meetodid.
4. Andmete varieeruvus ja selle kirjeldamine Andmete analüüsimiseks tuleb esmalt teadvustada, et igas andmestikus esineb andmete varieeruvus. Varieeruvus on uuritava objekti oluline iseloomustaja. Andmete varieeruvust saab kirjeldada arvuliselt või visuaalselt.
Jaotuste kuju ja hajuvuse kirjeldamine Varieeruvuse arvulisel kirjeldamisel on abiks: keskväärtus (mean) mediaan (median) mood (mode) kvantiilid (quantiles) kvartiilid (quartiles) protsentiilid (percentiles) standardhälve (standard deviation)
Jaotuste kuju ja hajuvuse kirjeldamine keskväärtus (μ) - aritmeetiline keskmine Inglise keeles average on laiema ja ebatäpsema tähendusega. average = mean or median or mode NB! Aritmeetilise keskmise tähistamiseks on eelistatud sõna mean, mitte average. mediaan - järjekorras keskmine väärtus (mediaanist mõlemal pool asub 50% andmeid) mood - kõige sagedamini esinev väärtus andmestikus Sageli kasutatakse terminit mood ka kohaliku maksimumi kohta, sel juhul on andmestik bi-modaalne või multi-modaalne kvartiilid - järjekorras 1/4 ja 3/4 kohal olevad väärtused protsentiilid - iga sajandiku peal olevad väärtused kvantiilid - üldmõiste kvartiilide, protsentiilide ja teiste analoogsete mõõdikute kirjeldamiseks standardhälve (σ) - räägime järgmisel nädalal
Andmete varieerumine Varieeruvuse visualiseerimisel on tavalised viisid: A. kõigi andmete näitamine graafikul B. karpdiagramm ehk boxplot C. tulpdiagramm (histogramm) D. tihedusfunktsioon
Andmete visualiseerimine A. Kõigi andmete näitamine N=130 N=12
Andmete visualiseerimine B. Karpdiagramm boxplot ehk box-and-whisker blot
B.Karpdiagramm Karpdiagramm ehk boxplot sobib hästi ebasümmeetrilise jaotusega andmete visualiseerimiseks NB! Kriipsu ots võib siin tähistada erinevaid asju: min või max väärtusi, 5% ja 95% protsentiile, 1.5 * kvartiilidevahelisest kaugusest või muid väärtusi.
Andmete visualiseerimine C. Tulpdiagramm ehk histogramm Mida rohkem tulpi, seda selgemalt on näha andmete jaotus
Andmete visualiseerimine D.Tihedusfunktsioon (frequency distribution) Lõpmata paljude andmete korral saab histogrammi tulbad asendada joonega. Nii saame andmete sagedusjaotuse. Paljude andmestike jaotus on kirjeldatav mingi hästi iseloomustatud matemaatilise funktsiooniga (näiteks normaaljaotus, Poissoni jaotus, binoomjaotus). Kui Y-telge teisendada nii, et joone all olev pindala on võrdsustatud 1-ga, siis nimetatakse seda tõenäosuse tihedusfunktsiooniks PDF (või diskreetsete tunnuste korral tõenäosuse massifunktsiooniks PMF). Tihedusfunktsioon annab võimaluse arvutada millise tõenäosusega X teljel näidatud väärtusega objekt andmestikus esineb. 100 90 80 70 60 50 40 30 20 10 0 Sageduste jaotuse histogramm 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 Tihedusfunktsioon 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200
Mõned konkreetsed näited Mediaani on kasulik kasutada juhtudel kui jaotus on tugevasti ühes suunas välja venitatud (näiteks palkade iseloomustamisel).
Jaotuste kuju ja hajuvuse kirjeldamine Moodi on kasulik kasutada juhtudel kui mood ei lange kokku ei mediaani ega keskväärtusega või juhtudel kui jaotus on bimodaalne (näiteks alustavate advokaatide palkade iseloomustamisel). http://blogs.payscale.com/ask_dr_salary/2007/09/median-vs-mean-.html
Näide bimodaalsest andmestikust Lehekülje http://bioinfo.ut.ee/snpmasker/ külastuskordade arv ühe ja sama kasutaja poolt kuu aja jooksul:
Kokkuvõte andmete varieeruvusest Andmete analüüsimist tuleb alustada andmete varieerumise kirjeldamisest. Varieeruvust saab kirjeldada arvuliselt ja/või visualiseerimise abil. Andmestikku kirjeldavad järgmised arvulised näitajad: keskväärtus, mood, mediaan, kvartiil, protsentiil, kvantiil, standardhälve.
Iseseisev töö Tänase teema paremaks mõistmiseks lugege lisaks: Peatükk 1: Statistics and Probability Are Not Intuitive Peatükk 2: Why Statistics Can Be Hard to Learn Peatükk 7: Graphing Continuous Data Peatükk 8: "Types of Variables" Peatükk 9: "Quantifying Scatter"