AMB_Loeng1_andmed_a

Seotud dokumendid
Microsoft PowerPoint - loeng2.pptx

Mida me teame? Margus Niitsoo

Praks 1

Praks 1

Praks 1

VL1_praks6_2010k

raamat5_2013.pdf

10/12/2018 Riigieksamite statistika 2017 Riigieksamite statistika 2017 Selgitused N - eksaminandide arv; Keskmine - tulemuste aritmeetiline keskmine (

Microsoft PowerPoint - Loodusteaduslik uurimismeetod.ppt

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Võrgupeo külastaja uurimine Andmeanalüüs I projekt Koostajad: Urma

Kirjeldav_statistika_pdfiks

Statistikatarkvara

VL1_praks2_2009s

Õppematerjalide esitamine Moodle is (alustajatele) seminar sarjas Lõunatund e-õppega 12. septembril 2017 õppedisainerid Ly Sõõrd (LT valdkond) ja Dian

Matemaatika ainekava 8.klass 4 tundi nädalas, kokku 140 tundi Kuu Õpitulemus Õppesisu Algebra (65 t.) Geomeetria (60 t.) Ajavaru kordamiseks (15 õppet

DVD_8_Klasteranalüüs

PowerPoint Presentation

PÄRNU TÄISKASVANUTE GÜMNAASIUM ESITLUSE KOOSTAMISE JUHEND Pärnu 2019

Kodutöö Töö eesmärk: Antud töö eesmärgiks on analüüsida vabalt valitud andmestikust leiduvat infot ning luua antud teema kohta ülesandeid, mille lahen

Tallinna Tehnikakõrgkooli teadustegevuse kajastus Eesti Teadusinfosüsteemi andmebaasis Agu Eensaar, füüsika-matemaatikakandidaat Eesti Teadusinfosüste

Microsoft PowerPoint - KESTA seminar 2013

Statistiline andmetöötlus

Microsoft Word - Praks1.doc

Sissejuhatus Informaatikasse Margus Niitsoo

IFI6083_Algoritmid_ja_andmestruktuurid_IF_3

Word Pro - digiTUNDkaug.lwp

ANOVA Ühefaktoriline dispersioonanalüüs Treeningu sagedus nädalas Kaal FAKTOR UURITAV TUNNUS Mitmemõõtmeline statistika Kairi Osula 2017/kevad

Õppekava arendus

PISA 2015 tagasiside koolile Tallinna Rahumäe Põhikool

(10. kl. I kursus, Teisendamine, kiirusega, kesk.kiirusega \374lesanded)

6. KLASSI MATEMAATIKA E-TASEMETÖÖ ERISTUSKIRI Alus: haridus- ja teadusministri määrus nr 54, vastu võetud 15. detsembril E-TASEMETÖÖ EESMÄRK Tas

Relatsiooniline andmebaaside teooria II. 6. Loeng

1

Regressioonanalüüsi kodutöö Indrek Zolk 30. mai a. 1 Andmestiku kirjeldus Käesoleva kodutöö jaoks vajalik andmestik on saadud veebiaadressilt ht

Institutsioonide usaldusväärsuse uuring

ArcGIS Online Konto loomine Veebikaardi loomine Rakenduste tegemine - esitlus

DIGITAALTEHNIKA DIGITAALTEHNIKA Arvusüsteemid Kümnendsüsteem Kahendsüsteem Kaheksandsüsteem Kuueteistkü

“MÄLUKAS”

Kuidas hoida tervist töökohal?

LPC_IO2_A05_004_uuringukava tagasiside protokoll_ET

II kooliastme loodusõpetuse e-tasemetöö eristuskiri Alus: 1) põhikooli riiklik õppekava; vastu võetud 6. jaanuaril 2011; 2) kordade määrus, vastu võet

Kursuseprogramm IFI6054 Agiilne tarkvaraarendus 3 EAP Kontakttundide maht: 28 Õppesemester: K Eksam Eesmärk: Aine lühikirjeldus: (sh iseseisva töö sis

Microsoft PowerPoint - e-maits08_aruanne.pptx

Microsoft Word - Toetuste veebikaardi juhend

Microsoft PowerPoint - Keskkonnamoju_rus.ppt

Microsoft PowerPoint - Loeng2www.ppt [Compatibility Mode]

Institutsioonide usaldusväärsuse uuring

Saksa keele riigieksamit asendavate eksamite tulemuste lühianalüüs Ülevaade saksa keele riigieksamit asendavatest eksamitest Saksa keele riigi

Microsoft Word - P6_metsamasinate juhtimine ja seadistamine FOP kutsekeskharidus statsionaarne

ДЕЛОВОЕ ОБЩЕНИЕ

Õppimine Anne Villems, Margus Niitsoo ja Konstantin Tretjakov

Matemaatilised meetodid loodusteadustes. I Kontrolltöö I järeltöö I variant 1. On antud neli vektorit: a = (2; 1; 0), b = ( 2; 1; 2), c = (1; 0; 2), d

2016 aasta märtsi tulumaksu laekumine omavalitsustele See ei olnud ette arvatav Tõesti ei olnud, seda pole juhtunud juba tükk aega. Graafikult näeme,

Suunised Euroopa turu infrastruktuuri määruse (EMIR) kohaste kesksetele vastaspooltele suunatud protsüklilisusvastaste tagatismeetmete kohta 15/04/201

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ann-Mari Koppel Determinatsioonikordaja ja prognoosikordaja Bakala

Tõenduspõhine hindamine kellele ja milleks? KIRSTI AKKERMANN TÜ PSÜHHOLOOGIA INSTITUUT KOGNITIIVSE JA KÄITUMISTERAAPIA KESKUS

1. Eesti keele B2-taseme eksamiks ettevalmistamisele suunatud kursus Algus OÜ 2. Õppekavarühm: võõrkeeled ja -kultuurid. Õppekava õp v lju d d sa skus

Pealkiri on selline

Microsoft PowerPoint - IRZ0020_praktikum4.pptx

SINU UKS DIGITAALSESSE MAAILMA Ruuter Zyxel LTE3302 JUHEND INTERNETI ÜHENDAMISEKS

(Tõrked ja töökindlus \(2\))

Excel Valemite koostamine (HARJUTUS 3) Selles peatükis vaatame millistest osadest koosnevad valemid ning kuidas panna need Excelis kirja nii, et

01_loomade tundmaõppimine

(Microsoft Word - T\366\366leht m\365isaprogramm algklassilastele tr\374kk 2.doc)

SG kodukord

Institutsioonide usaldusväärsuse uuring

Koolitus Täiskasvanud õppija õpioskuste arendamine Haridus- ja Teadusministeerium koostöös Tartu Rahvaülikooli koolituskeskusega (Tartu Rahvaülikool S

Analüüs online'i

(Microsoft Word - T\366\366leht m\365isaprogramm 4-6 kl tr\374kkimiseks.doc)

E-arvete juhend

Microsoft Word - G uurimistoo alused

Tartu Ülikool Loodus- ja tehnoloogiateaduskond Ökoloogia ja Maateaduse instituut Geograafia osakond Lõputöö Inimeste ruumilise käitumise sõltuvus eluk

KURSUS Hispaania keel 4 KLASS 11 TUNDIDE ARV 35 AINE SISU Plaanide tegemine ja kohtumiste kokkuleppimine. Kestev olevik. Reeglipärased ja sagedasemad

Kuidas ärgitada loovust?

PowerPoint Presentation

IT infrastruktuuri teenused sissejuhatav loeng 00

Tiia Salm 2011 Online kirjastus CALAMÉO Calameo kujutab endast on-line kirjastust, mis võimaldab oma dokumente avaldada e-raamatuna tasuta. Failid (Pd

PowerPoint Presentation

Microsoft PowerPoint - loeng.ppt

Osakogumite kitsendustega hinnang Kaja Sõstra 1 Eesti Statistikaamet Sissejuhatus Valikuuringute üheks oluliseks ülesandeks on osakogumite hindamine.

Slide 1

Projekt Kõik võib olla muusika

FRESENIUS ÕPPEKESKUS KIIRJUHEND

TARTU ORIENTEERUMIS- NELJAPÄEVAKUD neljapäevak Tehvandi, 1. august Ajakava: Start avatud: Finiš suletakse: Asukoht: Võistlu

Andmed arvuti mälus Bitid ja baidid

Word Pro - diskmatTUND.lwp

Microsoft PowerPoint - Niitmise_tuv_optiline_ja_radar.pptx

QUANTUM SPIN-OFF - Experiment UNIVERSITEIT ANTWERPEN

SQL

6

Andmebaasid, MTAT loeng Normaalkujud

Suunised Reitinguagentuuride meetodite valideerimise ja läbivaatamise suunised 23/03/2017 ESMA/2016/1575 ET

DE_loeng5

Matemaatiline analüüs IV 1 3. Mitme muutuja funktsioonide diferentseerimine 1. Mitme muutuja funktsiooni osatuletised Üleminekul ühe muutuja funktsioo

Sotsiaalministeerium, 2019 PIAAC Eesti andmestiku analüüsi lühiülevaade hariduslikust ülejäägist kõrgharitute hulgas 1. Taust Probleem: erinevate andm

Tootmise digitaliseerimine

ÕPILASTE TEHNOLOOGILISTE TEADMISTE VÕRDLEV UURING SOOMES JA EESTIS KASSARI PUHKEKESKUS Mart Soobik, Phd 12. juuni 2017

ESRI PÄEVADE AUHIND 2014 Aasta GIS-i tegu

Väljavõte:

Andmeanalüüs molekulaarbioloogias LOMR.10.007 1. nädal Loeng: Töökorraldus ja materjalid Teaduslik mõtteviis Andmete tüübid Andmete varieeruvuse kirjeldamine Praktikum: Sagedusjaotuste joonistamine Maido Remm

Töökorraldus 5 nädalat loengut ja praktikume + 1 proovieksam koos tulemuste arutelu ja kordamisega. Aine hinne kujuneb eksami punktidest (0-100). Lisapunkte on võimalik saada küsimuste küsimise eest loengus (1 punkt inimese kohta igas loengus). Eksam sisaldab ainult praktilisi ülesandeid, aeg on limiteeritud (1 tund ja 45 minutit). Eelnevalt teeme proovieksami (19.03.2018) koos tulemuste aruteluga. Toimub ainult üks korduseksam F-idele ja mitteilmunuile. Potentsiaalsed eksamiajad on järgmised: E 26.03.2018 kell 14.15-16.00 T 06.04.2018 kell 12.15-14.00

Peamiseks õppematerjaliks on raamat: Õppematerjalid Harvey Motulsky: Intuitive Biostatistics: A Nonmathematical Guide to Statistical Thinking (2009) Vajalikud raamatute peatükid on kättesaadavad aadressil: http://bioinfo.ut.ee/amb/amb_lomr.10.007/ kasutajanimi: kursus salasõna: amb2013 Loengute slaidid ja praktikumide materjalid veebilehel http://bioinfo.ut.ee/amb/

Praktikum Praktikumis (ja eksamil) vajalik arvuti ning programm OpenOffice või Excel INSTALLEERIGE SEE ENDA ARVUTISSE Praktikumi peamine eesmärk on harjutada eksamil vaja minevaid oskusi.

Esimese nädala teemad 1. Mida kujutab endast teaduslik (tõenduspõhine) uurimistöö 2. Miks on teaduslikus töös vaja hüpoteese? 3. Andmete tüübid 4. Andmete varieeruvus ja selle visualiseerumine

Tähelepanek Teaduslik (tõenduspõhine) mõtteviis Uurimisküsimus Testitava hüpoteesi sõnastamine Teaduslikus mõtteviisis on kesksel kohal hüpoteeside testimine. Hüpoteesi kontrollimine (katse või vaatlus) Artikkel Üldistav teooria

Tähelepanek Maratonijooksjate hulgas on palju tuttavaid TÜ-st Uurimisküsimus Kas ja kuidas on maratoni jooksmine seotud intelligentsusega? Hüpoteetiline näide hüpoteeside testimisest Testitava hüpoteesi sõnastamine 1 Hariduse omandamiseks kulutatud aastate arv kahel inimeste grupil: [jooksjad] vs [mitte-jooksjad] EI OLE ERINEV Testitava hüpoteesi sõnastamine 2 Kas hariduse omandamiseks kulutatud aastate arv kahel inimeste grupil: [pikamaajooksjad] vs [muude spordialadega tegelejad] EI OLE ERINEV Testita sõna Kas harid kulutatu inim [pikamaaj spordia EI Hüpoteesi kontrollimine 1 Hüpoteesi kontrollimine 2 Hü kontr Teaduslikus mõtteviisis on kesksel kohal hüpoteeside testimine. Artikkel

Teaduslik (tõenduspõhine) mõtteviis Tähelepanek Hüpoteesivabad meetodid (andmeteadus) Uurimisküsimus Testitava hüpoteesi sõnastamine Hüpoteesi kontrollimine (katse või vaatlus) Andmetöötluse programmid (mustriotsing, visualiseerimine, vms) kasutavad andmete ikkagi töötlemisel hüpoteese, kuid programmide kasutaja ei pruugi neid näha (implicit hypothesis vs explicit hypothesis) Artikkel Üldistav teooria

2. Miks on vaja testitavaid hüpoteese? Miks on vaja sõnastada numbriliselt testitav hüpotees? Inimese aju ei ole harjunud mõtlema tõenäosustest. Inimese aju on ehitatud nii, et suudaks kergesti leida andmete hulgas mustreid. Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja optimistlikult.

Inimese aju ei ole harjunud mõtlema tõenäosustest. Liituge Starmani DigiTV-ga ja teil on võimalik võita pilet Arsenali ja Manchester United i mängule. Tellige ajaleht Eesti Ekspress vähemalt kolmeks kuuks ja võite võita tasuta reisi Uus-Meremaale koos kaaslasega. Head and Shoulders vähendab kõõma kuni 100%.

Milliseid lahendusi pakub andmete analüüsimiseks statistika? Statistika annab andmete analüüsijale mõned tööriistad hindamaks leitud tulemuse usaldusväärtust. Peamine statistika abil lahendatav küsimus on: Kas saadud tulemus võis olla juhus? Seega kaitseb statistika meid ennatlike, liiga lihtsustatud järelduste tegemise eest olukorras, kus see ei ole põhjendatud.

Teadus vajab usaldusväärsust Teaduslik mõtteviis on ratsionaalne, põhinedes loogikal ja statistikal. Igal teaduslikul järeldusel peab olema faktiline kinnitus. Teaduses ei saa järeldusi teha esmase mulje või uskumise põhjal. Kui osad teadlased ei pea teaduslikust mõtteviisist kinni, muutub teatud hulk teadustulemustest ebausaldusväärseks. Kui teatud hulk teadustulemustest on ebausaldusväärne, siis ei saa enam ühtegi teadustulemust usaldada. Kui teadustulemused ei ole usaldusväärsed, siis pole teaduse järgi enam vajadust.

Kokkuvõtteks: Andmete kogumisel ja analüüsimisel tuleb järgida kindlaid reegleid, sest: 1. Inimese aju ei ole harjunud mõtlema tõenäosustest. 2. Inimese aju on ehitatud nii, et suudaks kergesti leida andmete hulgas mustreid. 3. Inimese aju teeb otsuseid enamasti liiga kiiresti, enesekindlalt ja optimistlikult. Statistiline mõtteviis kaitseb meid liigoptimistlike järelduste eest.

3. Andmete tüübid Analüüsimise meetod sõltub sellest, millist tüüpi on meie poolt kasutatavad andmed: Kas uuritavat objekti iseloomustavad tunnused on väljendatavad arvude või sõnadega? Kui sõnadena, siis kas need on järjestatavad?

Põhilised muutujate tüübid Nimetatavad (Nominal, Categorical) - lihtsaim alamtüüp on binaarne muutuja (kaks võimalikku olekut) Järjestatavad (Ordinal) Pidevad (Continuous)

Mida võib teha erinevat tüüpi muutujatega? Saab arvutada: Nimetatav (nominal) muutuja Järjestatav (ordinal) muutuja Pidev (continuous) muutuja Liita ja lahutada EI EI JAH Jagada ja korrutada EI EI JAH/EI Mediaan, kvartiilid, protsentiilid Keskväärtus, standardhälve, standardviga Tulpdiagramm sagedustega EI JAH JAH EI EI JAH JAH JAH JAH

Mis tüüpi on meie muutujad? Muutuja tüüp ei pruugi alati olla üheselt defineeritav. Näiteks värve saab andmestikus kirjeldada nii nominaalse, ordinaalse kui ka pideva muutujana. Muutuja tüübi valik on uurija loominguline otsus. Samas see otsus mõjutab tugevasti kogu järgnevat analüüsi. AMB ainekursuse raames tegeleme peamiselt: binaarsete nominaalmuutujate (JAH/EI) pidevmuutujate (täis- või murdarvud laiemas vahemikus) analüüsimisega.

Kokkuvõte muutuja tüüpidest Muutujad võivad olla nominaalset, ordinaalset või pidevat tüüpi. Erinevat tüüpi muutujate jaoks on erinevad analüüsi meetodid.

4. Andmete varieeruvus ja selle kirjeldamine Andmete analüüsimiseks tuleb esmalt teadvustada, et igas andmestikus esineb andmete varieeruvus. Varieeruvus on uuritava objekti oluline iseloomustaja. Andmete varieeruvust saab kirjeldada arvuliselt või visuaalselt.

Jaotuste kuju ja hajuvuse kirjeldamine Varieeruvuse arvulisel kirjeldamisel on abiks: keskväärtus (mean) mediaan (median) mood (mode) kvantiilid (quantiles) kvartiilid (quartiles) protsentiilid (percentiles) standardhälve (standard deviation)

Jaotuste kuju ja hajuvuse kirjeldamine keskväärtus (μ) - aritmeetiline keskmine Inglise keeles average on laiema ja ebatäpsema tähendusega. average = mean or median or mode NB! Aritmeetilise keskmise tähistamiseks on eelistatud sõna mean, mitte average. mediaan - järjekorras keskmine väärtus (mediaanist mõlemal pool asub 50% andmeid) mood - kõige sagedamini esinev väärtus andmestikus Sageli kasutatakse terminit mood ka kohaliku maksimumi kohta, sel juhul on andmestik bi-modaalne või multi-modaalne kvartiilid - järjekorras 1/4 ja 3/4 kohal olevad väärtused protsentiilid - iga sajandiku peal olevad väärtused kvantiilid - üldmõiste kvartiilide, protsentiilide ja teiste analoogsete mõõdikute kirjeldamiseks standardhälve (σ) - räägime järgmisel nädalal

Andmete varieerumine Varieeruvuse visualiseerimisel on tavalised viisid: A. kõigi andmete näitamine graafikul B. karpdiagramm ehk boxplot C. tulpdiagramm (histogramm) D. tihedusfunktsioon

Andmete visualiseerimine A. Kõigi andmete näitamine N=130 N=12

Andmete visualiseerimine B. Karpdiagramm boxplot ehk box-and-whisker blot

B.Karpdiagramm Karpdiagramm ehk boxplot sobib hästi ebasümmeetrilise jaotusega andmete visualiseerimiseks NB! Kriipsu ots võib siin tähistada erinevaid asju: min või max väärtusi, 5% ja 95% protsentiile, 1.5 * kvartiilidevahelisest kaugusest või muid väärtusi.

Andmete visualiseerimine C. Tulpdiagramm ehk histogramm Mida rohkem tulpi, seda selgemalt on näha andmete jaotus

Andmete visualiseerimine D.Tihedusfunktsioon (frequency distribution) Lõpmata paljude andmete korral saab histogrammi tulbad asendada joonega. Nii saame andmete sagedusjaotuse. Paljude andmestike jaotus on kirjeldatav mingi hästi iseloomustatud matemaatilise funktsiooniga (näiteks normaaljaotus, Poissoni jaotus, binoomjaotus). Kui Y-telge teisendada nii, et joone all olev pindala on võrdsustatud 1-ga, siis nimetatakse seda tõenäosuse tihedusfunktsiooniks PDF (või diskreetsete tunnuste korral tõenäosuse massifunktsiooniks PMF). Tihedusfunktsioon annab võimaluse arvutada millise tõenäosusega X teljel näidatud väärtusega objekt andmestikus esineb. 100 90 80 70 60 50 40 30 20 10 0 Sageduste jaotuse histogramm 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 Tihedusfunktsioon 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200

Mõned konkreetsed näited Mediaani on kasulik kasutada juhtudel kui jaotus on tugevasti ühes suunas välja venitatud (näiteks palkade iseloomustamisel).

Jaotuste kuju ja hajuvuse kirjeldamine Moodi on kasulik kasutada juhtudel kui mood ei lange kokku ei mediaani ega keskväärtusega või juhtudel kui jaotus on bimodaalne (näiteks alustavate advokaatide palkade iseloomustamisel). http://blogs.payscale.com/ask_dr_salary/2007/09/median-vs-mean-.html

Näide bimodaalsest andmestikust Lehekülje http://bioinfo.ut.ee/snpmasker/ külastuskordade arv ühe ja sama kasutaja poolt kuu aja jooksul:

Kokkuvõte andmete varieeruvusest Andmete analüüsimist tuleb alustada andmete varieerumise kirjeldamisest. Varieeruvust saab kirjeldada arvuliselt ja/või visualiseerimise abil. Andmestikku kirjeldavad järgmised arvulised näitajad: keskväärtus, mood, mediaan, kvartiil, protsentiil, kvantiil, standardhälve.

Iseseisev töö Tänase teema paremaks mõistmiseks lugege lisaks: Peatükk 1: Statistics and Probability Are Not Intuitive Peatükk 2: Why Statistics Can Be Hard to Learn Peatükk 7: Graphing Continuous Data Peatükk 8: "Types of Variables" Peatükk 9: "Quantifying Scatter"