DVD_8_Klasteranalüüs

Seotud dokumendid
ANOVA Ühefaktoriline dispersioonanalüüs Treeningu sagedus nädalas Kaal FAKTOR UURITAV TUNNUS Mitmemõõtmeline statistika Kairi Osula 2017/kevad

VL1_praks6_2010k

Praks 1

Statistikatarkvara

Mida me teame? Margus Niitsoo

Praks 1

Microsoft PowerPoint - loeng2.pptx

Praks 1

Vabariigi Valitsuse 18. detsembri a määruse nr 178 Kõrgharidusstandard lisa 3 (muudetud sõnastuses) Õppekavagrupid õppevaldkondades, nendes kõrg

Microsoft Word - VV191_lisa.doc

Vabariigi Valitsuse 18. detsembri a määruse nr 178 Kõrgharidusstandard lisa 3 (muudetud sõnastuses) [RT I , 17 jõust ] Õppe

Eelnõu lisa_3.docx

Excel Valemite koostamine (HARJUTUS 3) Selles peatükis vaatame millistest osadest koosnevad valemid ning kuidas panna need Excelis kirja nii, et

IFI6083_Algoritmid_ja_andmestruktuurid_IF_3

EESTI KUNSTIAKADEEMIA

eelnõu.docx

Rühmatöö Moodle is Triin Marandi 2017 oktoober

Vabariigi Valitsuse 18. detsembri a määrus nr 178 Kõrgharidusstandard Lisa 3 (muudetud sõnastuses) Õppekavagrupid, nendes kõrgharidustaseme õpet

(10. kl. I kursus, Teisendamine, kiirusega, kesk.kiirusega \374lesanded)

Tallinna Tehnikakõrgkooli teadustegevuse kajastus Eesti Teadusinfosüsteemi andmebaasis Agu Eensaar, füüsika-matemaatikakandidaat Eesti Teadusinfosüste

10/12/2018 Riigieksamite statistika 2017 Riigieksamite statistika 2017 Selgitused N - eksaminandide arv; Keskmine - tulemuste aritmeetiline keskmine (

PowerPoint Presentation

Õppematerjalide esitamine Moodle is (alustajatele) seminar sarjas Lõunatund e-õppega 12. septembril 2017 õppedisainerid Ly Sõõrd (LT valdkond) ja Dian

Neurovõrgud. Praktikum mai a. 1 WEKA WEKA (Waikato Environment for Knowledge Analysis) on masinõppimise ja andmekaevanduse algoritmide k

Microsoft Word - essee_CVE ___KASVANDIK_MARKKO.docx

Microsoft Word - Praks1.doc

raamat5_2013.pdf

Sissejuhatus Informaatikasse Margus Niitsoo

efo03v2pkl.dvi

PowerPoint Presentation

1 Keskkonnamõju analüüs Loone - Pirgu metsakuivenduse rekonstrueerimine Koostajad Koostamise aeg metsaparandusspetsialist Jüri Koort Raplam

Majandus- ja kommunikatsiooniministri 10. aprill a määrus nr 26 Avaliku konkursi läbiviimise kord, nõuded ja tingimused sageduslubade andmiseks

Kursuseprogramm IFI6054 Agiilne tarkvaraarendus 3 EAP Kontakttundide maht: 28 Õppesemester: K Eksam Eesmärk: Aine lühikirjeldus: (sh iseseisva töö sis

Halliste Põhikool HALLISTE PÕHIKOOLI LOOVTÖÖ KOOSTAMISE JA VORMISTAMISE JUHEND Halliste 2018

Teadus- ja arendustegevuse korralise evalveerimise aasta hindamiskomisjoni moodustamine ja selle töökorra kinnitamine

Kirjeldav_statistika_pdfiks

Suunised Euroopa turu infrastruktuuri määruse (EMIR) kohaste kesksetele vastaspooltele suunatud protsüklilisusvastaste tagatismeetmete kohta 15/04/201

Microsoft Word Mehhatroonika valdkonna ettevotete suutlikkuse ja konkurentsivoime analyys.docx

Relatsiooniline andmebaaside teooria II. 6. Loeng

(Microsoft Word - \334lle Mugu_kokkuv\365te)

E-õppe ajalugu

Neurovõrgud. Praktikum aprill a. 1 Stohhastilised võrgud Selles praktikumis vaatleme põhilisi stohhastilisi võrke ning nende rakendust k

Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Ingi Einaste Eesti kõrgkoolide matemaatika ja informaatika üliõpil

PowerPoint Presentation

ДЕЛОВОЕ ОБЩЕНИЕ

AMB_Loeng1_andmed_a

loeng2

Microsoft Word - EVS-ISO doc - pdfMachine from Broadgun Software, a great PDF writer utility!

Kursuseprogramm Ainekood: IFI6001 Arvuti töövahendina Maht 5 EAP Kontakttundide maht: 56 Õppesemester: K Eksam Eesmärk: Aine lühikirjeldus: (sh isesei

3D mänguarenduse kursus (MTAT ) Loeng 3 Jaanus Uri 2013

VKE definitsioon

VL1_praks2_2009s

Microsoft PowerPoint - Kindlustuskelmus [Compatibility Mode]

Segamudelid2010.pdf

Solaariumisalongides UVseadmete kiiritustiheduse mõõtmine. Tallinn 2017

PAIGALDUSJUHEND DUŠINURK VESTA 1. Enne paigaldustööde alustamist veenduge, et elektrikaablid, veetorud vms ei jääks kruviaukude alla! 2. Puhastage sei

Pöördumine Eesti Valitususe ja Europa Nõukogu Inimõiguste Komissari hr. Hammarbergi poole Appeal to the Government of the Republic of Estonia and the

sojateadlane_4.indd

Microsoft PowerPoint - KESTA seminar 2013

E-õppe ajalugu

Image segmentation

Microsoft Word - Toetuste veebikaardi juhend

(Microsoft PowerPoint - seminar_6_n\365uded-ainemudel tagasiside.ppt [Compatibility Mode])

Ppt [Read-Only]

Monitooring 2010f

6. KLASSI MATEMAATIKA E-TASEMETÖÖ ERISTUSKIRI Alus: haridus- ja teadusministri määrus nr 54, vastu võetud 15. detsembril E-TASEMETÖÖ EESMÄRK Tas

PowerPoint Presentation

DNS teenus teoorias ja praktikas Autor Siim Adamson ITK Autor: Siim Adamson ITK

E-õppe ajalugu

Orbiidile! hooaja info

View PDF

Ruutvormid Denitsioon 1. P n Ütleme, et avaldis i;j=1 a ijx i x j ; kus a ij = a ji ; a ij 2 K ja K on korpus, on ruutvorm üle korpuse K muutujate x 1

Andmebaasid, MTAT loeng Normaalkujud

Miksikese_e_tanukiri_2017_sugissprint_klassid_2

Microsoft Word - 23jaan07.doc

Microsoft PowerPoint - geodb_090507v1.ppt [Read-Only] [Compatibility Mode]

FIDE reitingumäärus 1. juuli 2014 Kuremaa, Marek Kolk

PowerPoint Presentation

Microsoft Word - Referaat.docx

EFEXON LIUGUKSED 2015 €URO.xls

LISA KINNITATUD õppeprorektori korraldusega nr 134 MUUDETUD õppeprorektori korraldusega nr 76 Võõrkeeleoskuse tõendamise tingimu

Saksa keele riigieksamit asendavate eksamite tulemuste lühianalüüs Ülevaade saksa keele riigieksamit asendavatest eksamitest Saksa keele riigi

Eesti Muusika- ja Teatriakadeemia diplomite, akadeemiliste õiendite ja tunnistuste väljaandmise kord I Üldsätted 1. Käesolev eeskiri sätestab Eesti Mu

Võistlusülesanne Vastutuulelaev Finaal

efo09v2pke.dvi

Pangalingi spetsifikatsioon Pocopay pangalingilt makse algatamiseks tuleb kasutada teenust Kaupmees teeb päringu Pocopayle aadressile

Kodutöö Töö eesmärk: Antud töö eesmärgiks on analüüsida vabalt valitud andmestikust leiduvat infot ning luua antud teema kohta ülesandeid, mille lahen

Valmis_aknad_78-2

Mining Meaningful Patterns

Abiarstide tagasiside 2016 Küsimustikule vastas 137 tudengit, kellest 81 (60%) olid V kursuse ning 56 (40%) VI kursuse tudengid. Abiarstina olid vasta

Microsoft Word - P6_metsamasinate juhtimine ja seadistamine FOP kutsekeskharidus statsionaarne

6

Microsoft PowerPoint - loeng.ppt

Tartu Ülikool Psühholoogia instituut Karmen Vool ISIKSUSHÄIRETELE OMASTE JOONTE SEOS EMPAATIA NING TERAPEUTILISE SUHTEGA Magistritöö Juhendaja: Maie K

Tartu Ülikool Psühholoogia Instituut Maarja-Liisa Plado Kolme- kuni nelja-aastaste eesti laste kõne arengu uurimine Reynelli testiga Uurimistöö Juhend

Pythoni Turtle moodul ja Scratchi värvilisem pool Plaan Isikukoodi kontrollnumbri leidmine vaatame üle lahenduse kontrollnumbri leimiseks. Pythoni joo

Pealkiri

Microsoft Word - Estonian - Practice Reasoning Test doc

6

Väljavõte:

Kursus: Mitmemõõtmeline statistika Seminar IX: Objektide grupeerimine hierarhiline klasteranalüüs Õppejõud: Katrin Niglas PhD, dotsent informaatika instituut Objektide grupeerimine Eesmärk (ehk miks objekte koondada): Omavahel sarnaste objektide leidmine (sarnased = valitud tunnuste lõikes ligilähedaselt samu vastuseid/väärtusi omavad vastajad/objektid) Tüpoloogiate loomine 1

Objektide grupeerimine Võimalikud meetodid: Vähe objekte: k-keskmiste klasteranalüüs Palju objekte: k-keskmiste klasteranalüüs Kategoriaalsed tunnused: Tunnuste poolt defineeritud alamgruppidesse jagamine (abiks mitmemõõtmelised sagedustabelid) Hierarhilise klasteranalüüsi idee seisneb selles, et sammsammult hakatakse kokku panema neid objekte, mis on omavahel kõige sarnasemad st millel on valitud tunnuste lõikes kõige sarnasemad väärtused. => Esimesel sammul iga objekt omaette viimasel sammul kõik koos st üks klaster/grupp põhiküsimus: millal kokkupanemine lõpetada!? Matemaatiliselt: Vaja valida objektide sarnasuse/kauguse mõõt ja klastrite vahelise kauguse arvutamise loogika NB! Kui valitud tunnused on mõõdetud erinevatel skaaladel, siis on tihti otstarbekas tunnused standardiseerida, et vältida nende skaalade domineerimist kauguse leidmisel, mille ühikud ja absoluutne hajuvus on suuremad. 2

Kauguse/sarnasuse mõõduks Measure/Interval: Obj x ; x ;...; x ) Obj x ; x ;...; x ) 1( 11 21 p1 2( 12 22 p2 (Squard) Euclidean distance Eukleidiline kaugus D Eukleidiline = 2 2 2 ( x11 x12 ) + ( x21 x22) +... + ( x p1 x p2) Minkowski D Minkowski p = x i= 1 1 m m i1 xi 2 D City block = p i= 1 x i1 x i2 3

Klastrite ühendamise meetod väljal Cluster Method: Between-groups linkage klastrite vaheline kaugus arvutatakse üksiktunnuste kauguste/sarnasuste keskväärtusena Nearest neighbor klastrite vaheline kaugus arvutatakse erinevates klastrites olevate omavahel kõige sarnasemate objektide vahelise kaugusena Centroid clustering klastrite vaheline kaugus arvutatakse klastri raskuskeskmete vahel Ward s method teistest erinev loogika (ANOVA le sarnane) minimiseeritakse klastrite sisest hajuvust E= summarne objektide kaugus klastri keskpunktist algul kõik eraldi ja E=0 igal sammul pannakse kokku need objektid, mille puhul E kasvab kõige vähem 4

- dendrogramm k-keskmiste klasterdamise algoritm on samuti lihtne: määrata klastrite arv jagada objektid esialgsetesse klastritesse arvutada välja klastrite keskpunktid võrrelda igat objekti kõigi klastrite keskpunktidega; kui osutub, et objekti kaugus mõne muu klastri keskpunktist on väiksem kui selle klastri keskpunktist, milles ta parasjagu asub, siis tuleb objekt teise klastrisse ümber tõsta peale objekti ümbertõstmist tuleb klastrite keskpunktid uuesti arvutada ja jätkata protsessi niikaua kui kõik objektid on klastris, mille keskpunktile nad kõige lähemal asuvad. 5

6

Klasteranalüüs pane tähele! Pole ühte ainuõiget lahendit => tõlgendus + stat.näitajad Kui andmetes ei ole sisulist grupeeritust, siis võib jagamine olla meelevaldne ja sõltuda (suurel määral) klasterdamise meetodist Tulemus võib sõltuda objektide sorteerimise järjekorrast Ekstreemsed väärtused => ühe-kahe objektiga klastrid Erinevad skaalad => standardiseerida Eksploratiivne meetod => F-testi e ANOVA t ei tohi klasteranalüüsi juures tõlgendada kui olulisustesti Kaalu, kas klasterdamise aluseks olevad tunnused on valitud mõistlikult (sobivad sisuliselt kokku, ükski tähtis tunnus ei puudu mudelist, jne) 7

Kursus: Mitmemõõtmeline statistika Seminar X: Tunnuste ja objektide grupeerimine Klasteranalüüs Faktoranalüüs Õppejõud: Katrin Niglas PhD, dotsent informaatika instituut Praktikum: tunnuste ja objektide grupeerimine Andmestik: Raamat: Artikkel: Muulased.sav Vene küsimus ja Eesti valikud, toim. Mati Heidmets, TPÜ Kirjastus 1998 Usaldus ja usaldamatus rahvussuhetes, Jüri Kruusvall, lk 29-76 Faktoranalüüs: peatükk 2.3. Eesti elanike etniline häiritus (lk 36) Klasteranalüüs:peatükk 2.4. Eesti elanike etnilise häirituse tüpoloogia (lk41) NB! Tabelid on artikli lõpus! 8

Praktikum: tunnuste ja objektide grupeerimine Teine näide faktor- ja klasteranalüüsi kasutanud uurimuse põhjal kirjutatud artiklitest: Ehala, M., Niglas, K. (2004) Eesti koolinoorte keelehoiakud. Akadeemia, 2004, 10, lk 2115-2143. Ehala, Martin; Niglas, Katrin (2006). Language attitudes of Estonian secondary school students. Journal of Language, Identity and Education, 5(3), 209-227. 9