Kodutöö Töö eesmärk: Antud töö eesmärgiks on analüüsida vabalt valitud andmestikust leiduvat infot ning luua antud teema kohta ülesandeid, mille lahen

Seotud dokumendid
Microsoft PowerPoint - loeng2.pptx

AMB_Loeng1_andmed_a

VL1_praks2_2009s

Praks 1

Andmed arvuti mälus Bitid ja baidid

10/12/2018 Riigieksamite statistika 2017 Riigieksamite statistika 2017 Selgitused N - eksaminandide arv; Keskmine - tulemuste aritmeetiline keskmine (

Statistikatarkvara

Pealkiri

Regressioonanalüüsi kodutöö Indrek Zolk 30. mai a. 1 Andmestiku kirjeldus Käesoleva kodutöö jaoks vajalik andmestik on saadud veebiaadressilt ht

PowerPoint Presentation

Microsoft Word - 2. Tokio kriteerium

raamat5_2013.pdf

Excel Valemite koostamine (HARJUTUS 3) Selles peatükis vaatame millistest osadest koosnevad valemid ning kuidas panna need Excelis kirja nii, et

FIDE reitingumäärus 1. juuli 2014 Kuremaa, Marek Kolk

PowerPointi esitlus

VL1_praks6_2010k

Microsoft Word - MKM74_lisa2.doc

Siseministri 21. veebruari 2005.a määruse nr 34 Siseministri 27. augusti 2004.a määruse nr 52 Schengen Facility vahendite kasutamise kord muutmine lis

DVD_8_Klasteranalüüs

Relatsiooniline andmebaaside teooria II. 6. Loeng

ITI Loogika arvutiteaduses

Pangalingi spetsifikatsioon Pocopay pangalingilt makse algatamiseks tuleb kasutada teenust Kaupmees teeb päringu Pocopayle aadressile

Microsoft Word - Toetuste veebikaardi juhend

Võistlusülesanne Vastutuulelaev Finaal

19. Marek Kolk, Kõrgem matemaatika, Tartu Ülikool, Arvridade koonduvustunnused Sisukord 19 Arvridade koonduvustunnused Vahelduvat

Tarbijamängu Saa Kinder Bueno fotomodelliks reeglid 1. TOODETE TURUSTAJA: Mobec AS, registrinumber , aadress: Kurekivi tee 6, Rae vald, Harjum

lvk04lah.dvi

Microsoft Word - TallinnLV_lihtsustatud_manual_asutuse_juhataja_ doc

Maksu- ja Tolliamet MAKSUKOHUSTUSLANE Vorm KMD INF Nimi Registri- või isikukood A-osa ANDMED VÄLJASTATUD ARVETE KOHTA. Esitatakse koos käibedeklaratsi

GRUPI-SMS Veebirakenduse kasutamise juhend Rakendus Elisa grupi-smsi rakendus Väljaandja Elisa Eesti AS Juhendi koostamise kuupäev Versioon

Microsoft Word - RM_ _17lisa2.rtf

(Microsoft PowerPoint - Investeerimishoius_Uus_Maailm_alusvara_\374levaadeToim.ppt)

1. AKE Ajalise keerukuse empiiriline hindamine

Praks 1

Microsoft Word - Lisa1 , Eramu piirded _LK1-7_.doc

Mascus - Jatiina esitlus 2017

SQL

Funktsionaalne Programmeerimine

Pythoni Turtle moodul ja Scratchi värvilisem pool Plaan Isikukoodi kontrollnumbri leidmine vaatame üle lahenduse kontrollnumbri leimiseks. Pythoni joo

SQL

Microsoft Word - 56ylesanded1415_lõppvoor

Praks 1

Sissejuhatus Informaatikasse Margus Niitsoo

6. KLASSI MATEMAATIKA E-TASEMETÖÖ ERISTUSKIRI Alus: haridus- ja teadusministri määrus nr 54, vastu võetud 15. detsembril E-TASEMETÖÖ EESMÄRK Tas

Mida me teame? Margus Niitsoo

Mida räägivad logid programmeerimisülesande lahendamise kohta? Heidi Meier

PÄRNU SPORDIKILB Küsimused: Urmo Kallakas, Märt-Martin Arengu PÄRNU SPORDIKILB Pildil olev Prantsuse väikelinn on meile tuntu

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Võrgupeo külastaja uurimine Andmeanalüüs I projekt Koostajad: Urma

VaadePõllult_16.02

CSS juhend

Programmi AnimatorDV Simple+ lühike kasutajajuhend

EDL Liiga reeglid 1. ÜLDSÄTTED 1.1. EDL Liiga toimub individuaalse arvestuse alusel, kus mängijad on jagatud hooaja EDL Liiga tulemuste põhj

Microsoft Word - Tiivustame lapsi liikuma.doc

Kirjeldav_statistika_pdfiks

M16 Final Decision_Recalculation of MTR for Elisa

I Generaatori mõiste (Java) 1. Variantide läbivaatamine Generaator (ehk generaator-klass) on klass, milles leidub (vähemalt) isendimeetod next(). Kons

MMFA For Laura

AWK Aho Weinberger Kernighan struktuurse teksti töötlemise keel rikkalikult tekstitöötlusvahendeid omal alal suhteliselt lihtne ja kiiresti realiseeri

Ruutvormid Denitsioon 1. P n Ütleme, et avaldis i;j=1 a ijx i x j ; kus a ij = a ji ; a ij 2 K ja K on korpus, on ruutvorm üle korpuse K muutujate x 1

PHP

G aiasoft Programmi VERP ja Omniva Arvekeskuse liidese häälestamine ja arvete saatmine-lugemine VERP 6.3 ja VERP 6.3E Versioon ja hilisemad K

View PDF

Piima ja tooraine pakkumise tulevik kogu maailmas Erilise fookusega rasvadel ja proteiinidel Christophe Lafougere, CEO Gira Rakvere, 3rd of October 20

HWU_AccountingAdvanced_October2006_EST

(loeng3-ohtlikud_koodiloigud)

EUROOPA KOMISJON Brüssel, COM(2018) 284 final ANNEXES 1 to 2 LISAD järgmise dokumendi juurde: Ettepanek: Euroopa Parlamendi ja nõukogu määru

Polünoomi juured Juure definitsioon ja Bézout teoreem Vaadelgem polünoomi kus K on mingi korpus. f = a 0 x n + a 1 x n a n 1 x

KIIRJUHEND Lugege kiirjuhend enne seadme kasutamist hoolikalt läbi. Kõik tärniga (*) märgitud juhised kehtivad WLAN + 3G mudelitele (Lenovo B6000-H(V)

Institutsioonide usaldusväärsuse uuring

5_Aune_Past

1

Microsoft Word - Lisa 4_Kohtususteemide vordlus

M16 Final Decision_Recalculation of MTR for EMT

Present enesejuhtimine lühi

Microsoft Word - Uudiskirja_Toimetulekutoetus docx

Monitooring 2010f

Mälumäng Vol 3.

Institutsioonide usaldusväärsuse uuring

Slide 1

Matemaatiline analüüs IV 1 3. Mitme muutuja funktsioonide diferentseerimine 1. Mitme muutuja funktsiooni osatuletised Üleminekul ühe muutuja funktsioo

Institutsioonide usaldusväärsuse uuring

1 / loeng Tekstitöötlus Sisend/väljund Teksti lugemine Sõnad

Teenuste hinnakiri Kontohalduri nimi: Coop Pank AS Konto nimi: arvelduskonto Kuupäev: Käesolevas dokumendis on esitatud tasud maksekontoga

Markina

B120_10 estonian.cdr

Microsoft Word - Karu 15 TERMO nr 527.doc

Microsoft Word - 23jaan07.doc

Microsoft PowerPoint - Kindlustuskelmus [Compatibility Mode]

6

Microsoft PowerPoint - 8_Finale Präsentation DMAG_Tallin_Thiem et.ppt

Microsoft PowerPoint - Konjunktuur nr 3 (194) pressile marje .ppt

Tartu Kutsehariduskeskus Teksti sisestamine Suurem osa andmetest saab sisestatud klaviatuuril leiduvate sümbolite abil - tähed, numbrid, kirjavahemärg

EFEXON LIUGUKSED 2015 €URO.xls

Väljavõte:

Kodutöö Töö eesmärk: Antud töö eesmärgiks on analüüsida vabalt valitud andmestikust leiduvat infot ning luua antud teema kohta ülesandeid, mille lahendamisel kasutan praktikumis omandatud oskusi. Käsitlen antud töös järgmisi teemasid: Millise andmestikuga on tegemist? Andmestik omab ülevaadet olümpiamängudelt (2000-2010) võidetud medalite hulgast ja nende võitjatest, sisaldades infot nii võitja rahvuse kui ka vanuse kohta. Lisaks on toodu välja, milliselt spordialalt on medalid võidetud. I. Andmete sisselugemine, puuduvad väärtused Tegemist on Exceliga CSV-formaati salvestatud failiga, mistõttu kasutame käsku read.csv(). Antud juhul on komakoha sümboliks punkt. o > andmed = read.csv("olümpia.csv", header = T, sep = ";", dec = ".") Kuna andmestikus on veergudes Gold.Medals, Silver.Medals, Bronze.Medals puuduvaid väärtusi NA, siis täidame need järgmiselt: o > andmed$silver.medals[is.na(andmed$silver.medals)] = 0 > andmed$gold.medals[is.na(andmed$gold.medals)] = 0 > andmed$bronze.medals[is.na(andmed$bronze.medals)] = 0 Käsuga str(andmed) saame hea ülevaate, mis muutujatüüpidega on veerud. Võime ka kasutada eraldi ka käsku class() nt >class(andmed$age). Puuduvate väärtuste asendamisel muutus esialgne muutujatüüp täisarv (integer) reaalarvuks (numeric) veergudes Gold.Medals, Silver.Medals ja Bronze.Medals. Vajadusel saab muuta tagasi täisarvuks, kui kasutada käsku as.integer(). 1

II. Esmane andmekirjeldus Uuritavas andmestikus on: o Ridasid ja veerge > x = data.frame(read = nrow(andmed), veerud = ncol(andmed)) > x read veerud 1 8618 10 o Veergude nimedeks > names(andmed) o "Athlete" o "Age" o "Country" o "Year" o "Closing.Ceremony.Date" "Sport" o "Gold.Medals" o "Silver.Medals" o "Bronze.Medals" o "Total.Medals" o Kirjeldav statistika kõigi OM-l osalenute vanuse kohta: > summary(andmed$age) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 15.00 23.00 26.00 26.41 29.00 61.00 5 III. Kirjeldav statistika Leiame 2000. aasta olümpimängudel osalenute hulgast vanima sportlase ja noorima kuldmedalivõitja ujumises: o > max(andmed$age[andmed$year==2000]) o > min(andmed$age[andmed$sport == "Swimming" & andmed$gold.medals]) o 47 o 15 Saime, et 2000. aasta olümpiamängudel oli vanim osaleja 47 aastane ning suveolümpiamängude noorim kuldmedali võitja ujumises oli vaid 15. aastane. Leiame eraldi 2000 ja 2012 olümpiamängudel osalenute keskmised vanused: o >keskmised=data.frame(mean(andmed$age[andmed$year==2000]),mean(an dmed$age[andmed$year==2012],na.rm=true)) > colnames(keskmised)=(c("2000", "2012")) > rownames(keskmised)="keskmine" 2

> keskmised 2000 2012 keskmine 26.27174 26.23885 Näeme, et 2000. a osalenute keskmine vanus võrreldes 2012. a osalenute kekmisest vanusest ei erine palju: 2000. a osalenute keskmine vanus on vaid veidikene suurem. Leiame kui palju sportlasi vanuses 15-19 osales 2000-2012. aasta olümpiamängudel riikide lõikes ja teeme sagedustabeli, kuvades ekraanile vaid esimesed 7 riiki. Kasutame table() käsku: o > length(andmed$age[andmed$age<20]) > 510 Osales 510 sportlast, kes olid nooremad kui 20. o > v = table(andmed$country[andmed$age<20], andmed$age[andmed$age<20]) # moodustame sagedustabeli > v[1:7,1:5] # kuvame tabeli mõõtmetes 5x7 15 16 17 18 19 Afghanistan 0 0 0 0 0 Algeria 0 0 0 0 0 Argentina 0 0 0 1 1 Armenia 0 0 0 0 0 Azerbaijan 0 0 0 1 3 Australia 1 6 4 7 10 Austria 0 0 0 0 1 Näeme, et seitsme riigi hulgast on olnud Austraalia osavõtt 15-16 sportlaste seas kõige suurem. Antud sagedustabelis on olümpiamängudelt enim osa võtnuid 19. ja 18. a sportlaste seas. o >barplot(v[1:7,1:5],ylim = c(0,12),xlab = 'vanus', ylab = 'kokku', beside=t, main='7 riigi 15.-16. a osakaal OM-l 2000-2012',col = rainbow(7)) legend("topleft", c("afganistan", "Alžeeria", "Argentina", "Armeenia", "Aserbaidžaan","Austraalia","Austria"), cex=1.0, bty="n", fill=rainbow(7)); Näeme, et vanuses 19. eluaastat on osavõtt olnud kõige suurem. Lisaks on ülekaalukalt kõige rohkem sportlasi Austraaliast. 3

Joonis 1 Sagedustabelile vastav tulpdiagramm (kasutatud on barplot() käsku) Leiame samale sagedustabelile ka jaotustabeli, kasutades prop.table() käsku: o > prop.table(v[1:7,1:5]) 15 16 17 18 19 Afghanistan 0.00000000 0.0000000 0.0000000 0.00000000 0.00000000 Algeria 0.00000000 0.0000000 0.0000000 0.00000000 0.00000000 Argentina 0.00000000 0.0000000 0.0000000 0.02857143 0.02857143 Armenia 0.00000000 0.0000000 0.0000000 0.00000000 0.00000000 Azerbaijan 0.00000000 0.0000000 0.0000000 0.02857143 0.08571429 Australia 0.02857143 0.1714286 0.1142857 0.20000000 0.28571429 Austria 0.00000000 0.0000000 0.0000000 0.00000000 0.02857143 Ka jaotustabelist näeme, et rohkem kui 50% vanuses 15-19 osalenutest on rahvuselt austraallased.. IV. Tsükli, funktsiooni, plyr ja ggplot2 kasutamine 1) Kasutades for tsüklit, kuvame ekraanile OM osalejate arvu riikide lõikes, samuti eraldi riikide vanima ja noorima sportlase, kes vahemikus 2000. - 2012. a OM-lt osa võtnud: o > for (riik in levels(andmed$country)){ if((length(andmed$athlete[andmed$country == riik])) == 1){ # kui osalejate arv on võrdne 1, siis kuvatakse ekraanile print(riik) print('on osalenud vaid üks sportlane') print("***") } else{ # kui ei võrdu 1, siis kuvatakse ekraanile print(riik) 4

print(length(andmed$athlete[andmed$country == riik])) print(max(andmed$age[andmed$country == riik],na.rm = T)) print(min(andmed$age[andmed$country == riik],na.rm = T)) print("***") } } "Afghanistan" 2 # osalejate arv 25 # vanim osaleja 21 # noorim osaleja "***" "Algeria" 8 29 22 "***" "Argentina" 141 46 18 "***" 2) Joonistame tulpdiagrammi enim kuldmedaleid võitnud riikide kohta, kasutades qplot() ning ka plyr() käsku: o > kuldm = ddply(andmed, "Country", summarize, Kokku = sum(gold.medals)) > qplot(country, Kokku, data = kuldm, geom = "bar",xlab = "Riik",ylab="Kuldmedaleid kokku",main = "2000.-2012. a OM-lt kõige rohkem kuldmedaleid võitnud riigid",stat = "identity", fill = Country ) + scale_x_discrete(limits = c("russia","united States","China","South Korea","Germany","Canada","Australia"))+ scale_fill_hue(name = "Riigid", breaks = c("russia","united States","China","South Korea","Germany","Canada","Australia")) last_plot() + theme(panel.background = element_rect(fill = "green"), panel.grid.major = element_line(size = 2, colour = "white"), panel.border = element_blank()) 5

Joonis 2 Tulpdiagramm kõige rohkem kuldmedaleid OM-lt võitnud riikide kohta Joonisel 2 näeme, et aastatel 2000-2012 toimunud OM-lt on kõige rohkem kuldmedaleid võitnud Ameerika Ühendriigid. 3) Joonistame karpdiagrammi võrdlemaks OM-l osalenud Ameerika Ühendriikide ja Venemaa sportlaste vanuseid: o > qplot(country,age, data=andmed,geom="boxplot", fill=country,xlab = "Riik", ylab = "Vanus",main="OM-l osalenute vanused riikide lõikes") + scale_x_discrete(limits = c("united States","Russia")) + theme(panel.background = element_rect(fill = "green")) + scale_fill_hue(name = "Riigid", breaks = c("united States", "Russia")) 6

Joonis 3 Karpdiagramm OM-l (2000-2012) osalenud Venemaa ja USA sportlaste vanuste jaotuse kohta o Võime kontrollida, kas karpdiagrammil olevad andmed on tõesed, selleks kasutame kirjeldava statistika käske median(), quantile(): > quantile(andmed$age[andmed$country=="united States"], p = c(0.25, 0.5,0.75), na.rm=t) # USA sportlased > quantile(andmed$age[andmed$country=="russia"], p = c(0.25, 0.5,0.75), na.rm=t) # Venemaa sportlased USA Venemaa 25% 50% 75% 25% 50% 75% 22 25 29 22 25 29 Näeme tõepoolest, et joonisel 3 olevad andmed on tõesed, sest nii ülemine kui ka alumine ning mediaan (50% tähistab mediaani) kattub arvutuste teel saadud tulemustega. Lisaks saame väita, et USA kui ka Venemaa sportlaste vanuste mediaan ning ülemine kui ka alumine kvartiil ühtivad. Siiski tuginedes joonisele saame öelda, et vanuste suurim väärtus on antud juhul erinev. o Kirjutame lihtsa funktsiooni, mis arvutab kvantiilide haarde, seega: > haare = function(x,x1,x2) { h = quantile(x, p=x1) - quantile(x, p=x2) 7

return (print(c("haare on:",h))) } haare(andmed$age[andmed$country=="united States"], 0.75,0.25) # katsetame seda USA sportlaste puhul 75% - 25% Kvantiilide haare on: 7 V. Pikk ja lai formaat cast(), melt() o Teisendame andmestikust 50 rida ja 6-9 veergu pikka formaati melt() käsku kasutades: > s=melt(andmed[1:50, 6:9]) variable value 1 Gold.Medals 8 2 Gold.Medals 6 3 Gold.Medals 4 4 Gold.Medals 1 5 Gold.Medals 2 6 Gold.Medals 1... Variable veeru alla koonduvad Gold.Medals, Silver.Medals, Bronze.Medals. o Seejärel kasutame sõnetöötlust ja lisame juurde veel ühe veeru nimega tyyp: > s$tyyp = as.character(s$variable) > s$tyyp = str_replace(s$tyyp, ".Medals", "") # asendab sõna ".Medals" jättes alles kas Gold, Silver või Bronze o Teeme graafiku: Uurime kui palju pronksmedaleid on võidetud spordialade lõikes: > s2 = ddply(s[s$tyyp == "Bronze", ], "Sport", summarize, med_saak = value) > qplot(sport, med_saak, data = s2,xlab="spordiala",ylab="medaleid kokku", geom= "bar",fill = Sport, stat = "identity") last_plot() + theme(axis.text.x = element_text(angle = 45,size=7)) 8