Tartu Ülikool Matemaatika-informaatikateaduskond Matemaatilise statistika instituut Võrgupeo külastaja uurimine Andmeanalüüs I projekt Koostajad: Urmas Kvell Riivo Talviste Gert Palok Juhendaja: Mare Vähi Tartu 2007
Sisukord Sissejuhatus...3 Andmete esmaanalüüs...4 Naiste ja meeste osakaal võrgupeoliste hulgas...4 Võrgupeo külastajate vanuseline jaotus...5 Legaalse ja illegaalse tarkvara osakaal...6 Erinevate operatsioonisüsteemide osakaal...6 Populaarsemad arvutimängud ja mängutüübid...8 Seosed...10 Arvutikasutuse aeg ja mängimisele kulutatud aeg...10 Võrgupeo külastaja vanus ja võrgupidudel osalemiste arv...11 Võrgupeo külastaja vanus ja arvutimängude mängimisele kulutatud aeg...12 Tööhüpoteesid...13 Operatsioonisüsteemi MS Windows kasutajate arvutites leidub illegaalset tarkvara sagedamini.13 Inimesed, kes kasutavad arvutit päevas vähem, hindavad oma tervist paremaks...14 Regressioonimudel...16 Arvutimängude mängimisele päevas kulutatud aja kirjeldamine vanuse järgi...16 Järeldused...18 Kasutatud materjalid...19 Allikad...19 Programmid...19 Lisad...20 Küsitlus võrgupeo külastajatele...20
Sissejuhatus Käesoleva projekti eesmärgiks on lähemalt uurida Eesti võrgupidude keskmist külastajat. Võrgupidu on üritus, kuhu kogunevad arvutihuvilised ja kübersportlased, et võistelda omavahel erinevates arvutimängudes ja vahetada teadmisi ning oskusi töötubades. Töö eesmärgiks on uurida: naiste ja meeste osakaalu võrgupeoliste hulgas; võrgupeo külastajate vanuselist jaotust; legaalse ja illegaalse tarkvara osakaalu; erinevate operatsioonisüsteemide osakaalu; populaarsemaid arvutimänge ja mängutüüpe. Püstitame järgmised tööhüpoteesid: operatsioonisüsteemi MS Windows kasutajate arvutites leidub illegaalset tarkvara sagedamini; inimesed, kes kasutavad arvutit päevas vähem, hindavad oma tervist paremaks. Otsime järgmisi seoseid: Arvutikasutuse aeg ja mängimisele kulutatud aeg; Võrgupeo külastaja vanus ja võrgupidudel osalemiste arv; Võrgupeo külastaja vanus ja arvutimängude mängimisele kulutatud aeg. Lisaks sellele on meie eesmärgiks koostada regressioonimudel arvutimängude mängimisele päevas kulutatud aja kirjeldamiseks vanuse järgi. 3
Andmete esmaanalüüs Projekti jaoks saime andmeid 23.-25. märtsil 2007. a. toimunud võrgupeol Tartu Eksperiment 2007 korraldatud küsitlusest. Andmestik on valim, mis koosneb 63 objektist, igal objektil on mõõdetud 13 tunnust: sugu - binaarne tunnus; vanus - diskreetne arvtunnus; arvutite arv kodus - diskreetne arvtunnus; keelte oskus (inglise, vene, jaapani) järjestustunnus; tervisehinnang järjestustunnus; viimase arvuti omandamise aeg - diskreetne arvtunnus; sportlik aktiivsus (va kübersport) järjestustunnus; kasutatav operatsioonisüsteem nominaaltunnus; arvuti kasutamise aeg päevas - järjestustunnus; arvutimängudele kulutatud aeg päevas - järjestustunnus; võrgupidudel osalemise arv - järjestustunnus; illegaalse tarkvara omamine järjestustunnus; mängueelistused nominaaltunnus (vaatleme mängu kaupa binaartunnusena). Võrgupeol oli osalejaid kokku 89, seega on valimi maht piisav. Küsimustik ise asub lisas. 4
Naiste ja meeste osakaal võrgupeoliste hulgas Sageduse ja suhtelise sageduse tabel. Mehed Naised Sagedus 58 5 Suhteline sagedus 92,06% 7,94% Tabelist on näha, et kõige rohkem vastasid küsitlusele meessoost võrgupeolised, kes moodustasid 92% kõikidest vastanutest. See näitab, et võrgupeod ei ole eriti populaarsed naiste hulgas. Võrgupeo külastajate vanuseline jaotus Võrgupeo külastajate vanuselise jaotuse graafik. Graafikult võime välja lugeda, et peaaegu pooled võrgupeo külastajatest jäid vanusevahemikku 16-18 aastat. 5
Võrgupeo külastajate keskmine vanus uuritaval võrgupeol oli 18,67 aastat. Kõige vanem võrgupeoline oli 32 ja kõige noorem 13 aastat vana. Variatsioonirea keskpunkt (mediaan) on 18 aastat. Vanuse standardhälve on 4,17 ja mood on 16 aastat, 16 aastaseid oli 11. Legaalse ja illegaalse tarkvara osakaal Küsimus oli sõnastatud järgmiselt: Kas sinu arvutis leidub illegaalset tarkvara? Sageduse, suhtelise sageduse, kumulatiivse sageduse ja kumulatiivse suhtelise sageduse tabel. ei, ei leidu jah, mõni üksik jah, päris palju Sagedus 7 22 34 Suhteline sagedus 11,11% 34,92% 53,97% Kumulatiivne sagedus 7 29 63 Kumulatiivne suhteline sagedus 11,11% 46,03% 100,00% Tabelist on näha, et vaid 11% vastanutest ei leidu arvutis üldse illegaalset tarkvara, samas 54% leidus seda päris palju. 6
Erinevate operatsioonisüsteemide osakaal Operatsioonisüsteemide suhtelise sageduse graafik. Operatsioonisüsteemi Windows erinevad versioonid on kokku grupeeritud. Kuna BSD'd ja muu'd ei vastanud keegi, siis jätsime nad graafikult ära. Graafikult võime välja lugeda, et väga suures ülekaalus on operatsioonisüsteem Windows. 7
Operatsioonisüsteemi Windows erinevate versioonide suhteliste sageduste graafik. Graafikult võib välja lugeda, et kõik võrgupeoliste hulgas olevad Windowsi kasutajad kasutavad vähemalt versiooni Windows XP ning vaid üsna väike osa on läinud üle kõige uuemale versioonile Windows Vistale. Populaarsemad arvutimängud ja mängutüübid FPS First Person Shooter Mina-vaates tulistamismäng RTS Real Time Strategy Reaalajas toimuv strateegiamäng TBS Turn Based Strategy Käigupõhine strateegiamäng Rally - Rallimäng Arcade Platvormmäng (MMO)RPG (Massive Multiplayer Online) Role Playing Game (Mitmekesi korraga internetis toimuv) rollimäng 8
Populaarsemate arvutimängude sektordiagramm mängutüüpide järgi. Graafikult võime välja lugeda, et kõige populaarsem mängutüüp on FPS, millele järgnevad Rally ja RTS. Lisaks näeme, et mänguseeriate Quake ja Counter-Strike kõige uuemad versioonid Quake 4 ja Counter-Strike: Source jäävad populaarsuselt alla vanematele versioonidele Quake 3 ja Counter-Strike 1.6. Graafikult paistab ka, et uus Eesti arvutimäng DarkSide Tetris on saavutanud juba 9% populaarsuse võrgupeo mängude hulgas. 9
Seosed Arvutikasutuse aeg ja mängimisele kulutatud aeg Arvutimängude mängimisele kulutatud aja graafik arvutikasutuse aja järgi. Mängimisele kulutatud aeg tundub olevat sõltuvuses arvuti kasutamise ajast, st mida suurem on keskmine arvuti kasutamise aeg päevas, seda rohkem kulutab inimene sellest ajast arvutimängudele. Vastav monotoonne korrelatsioonikordaja on kergelt positiivne (0,25). Kui olulisuse nivooks valida 5%, siis vastava olulisustõenäosuse väärtus on p=0,046, seega võib väita, et mängimisele kulutatud aja ja arvutikasutuse aja vahel on nõrk seos ka üldkogumis. 10
Võrgupeo külastaja vanus ja võrgupidudel osalemiste arv Võrgupidudel osalemiste arvu graafik vanusegruppide järgi. Võrgupidudel osalemiste arv tundub olevat sõltuvuses vanusest, st mida vanem on inimene, seda rohkematel võrgupidudel on ta osalenud. Vanemates vanusegruppides leidub vähem inimesi, kes oleks käinud vähemal kui kolmel suuremal võrgupeol. Sarnaselt ei ole kõige nooremas vanusegrupis kedagi, kes oleks käinud rohkemal kui kümnel suuremal võrgupeol. Monotoonse seose korrelatsioonikordaja on peaaegu keskmine (0,40). Valida olulisuse nivooks 5%, vastava olulisustõenäosuse väärtus on p=0,001, seega on võrgupidudel osalemiste arvu ja vanuse vaheline seos üldkogumis keskmise tugevusega. 11
Võrgupeo külastaja vanus ja arvutimängude mängimisele kulutatud aeg Arvutimängude mängimisele kulutatud aja graafik vanusegruppide järgi. Mängimisele kulutatud aeg tundub olevat seoses võrgupeo külastaja vanusega. Et järjest vanemates vanusegruppides on mängimisele kulutatud aeg väiksem, kui nooremates vanusegruppides, siis on korrelatsioonikordaja negatiivne. Monotooonne korrelatsioonikordaja on peaaegu keskmine (-0,39). Valides olulisuse nivooks 5%, saame olulisuse tõenäosuseks p=0,002, seega on arvutimängude mängimisele kulutatud aja ja vanuse vaheline seos üldkogumis keskmise tugevusega. 12
Tööhüpoteesid Operatsioonisüsteemi MS Windows kasutajate arvutites leidub illegaalset tarkvara sagedamini Illegaalse tarkvara jaotus operatsioonisüsteemide järgi. Nagu graafikult selgelt näha, kasutab peaaegu 60% operatsioonisüsteem Windowsi kasutajatest päris palju illegaalset tarkvara. Samas kui Linuxi kasutajate hulgast kasutab päris palju illegaalset tarkvara natuke alla 20%. Illegaalset tarkvara mittekasutavaid inimesi on nii Windowsi kui ka Linuxi kasutajate hulgas peaaegu sama palju. Tuleb aga tähele panna, et küsitlusele vastanuist kasutas Windowsit ligi 10 korda rohkem kui Linuxit (vastavalt siis 56 ja 6). Kuigi graafikult on näha, et MacOSi kasutajate hulgas ei leidunud illegaalse tarkvara kasutajaid, ei saa seda lugeda statistiliselt oluliseks näitajaks, sest küsitlusele vastas vaid 1 MacOSi kasutaja. 13
Seega võib eelneva põhjal lugeda seost kehtivaks. Inimesed, kes kasutavad arvutit päevas vähem, hindavad oma tervist paremaks Tervisehinnang arvutikasutusaja järgi. Graafiku järgi ei tundu olevat arvuti kasutamise aja ja tervisehinnangu vahel märgatavat seost. Olenemata arvuti kasutamise ajast, hindasid pooled vastanuist oma tervist heaks. Ka tervisehinnangu ning arvuti kasutamise aja vaheline korrelatsioonikordaja tuli 0,05, seega ei saa me vastu võtta hüpoteesi, et inimesed, kes kasutavad arvutit päevas vähem, hindavad oma tervist paremaks. 14
Regressioonimudel Arvutimängude mängimisele päevas kulutatud aja kirjeldamine vanuse järgi Eelnevalt veendusime, et arvutimängude mängimisele kulutatud aja ja võrgupeolise vanuse vahel on peaaegu keskmise tugevusega negatiivne seos (monotoonne korrelatsioonikordajaga -0,39), st mida vanem on võrgupeo külastaja, seda vähem kulutab ta päevas aega arvutimängudele. Koostame selle seose kohta lineaarse regressioonimudeli. Mudeli järgi püüame statistiliselt hinnata võrgupeo külastaja mängimisele kulutatud aega päevas (tundides) tema vanuse järgi. Regressioonimudeliks saame: mängimisele_kulutatud_aeg = -0,11130 * vanus + 4,48210 Näiteks mängib 18-aastane võrgupeoline selle mudeli järgi päevas 2 ja pool tundi ning iga aastaga väheneb mängimisele kulutatud aeg umbes 6 minuti võrra. Mudeli standardviga on 1,262 (60 vabadusastmel) ja determinatsioonikordaja on 0,1226. Mudel suudab kirjeldada mängimisele kulutatud aega vanusevahemikus 13-32 aastat. 15
Regressioonimudeli graafik. 16
Järeldused Arvutikasutuse aja ja mängimisele kulutatud aja vahel leidub nõrk seos - korrelatsioonikordaja tuli 0,25. Seega saab järeldada, et inimesed, kes kasutavad arvutit rohkem mängivad üldiselt rohkem. Korrelatsioon võrgupeo külastaja vanuse ja võrgupidudel osalemiste arvu vahel on keskmine, vastav kordaja on 0,40. Seega võib väita, et vanemad võrgupeo külastajad on käinud rohkematel võrgupidudel. Kuna korrelatsioon võrgupeo külastaja vanuse ja arvutimängude mängimisele kulutatud aja vahel on negatiivne, siis saab väita, et vanemad võrgupeolised mängivad vähem arvutimänge. Et korrelatsioonikordaja on -0,39, siis on seos peaaegu keskmise tugevusega. Väide, et operatsioonisüsteemi MS Windows kasutajate arvutites leidub illegaalset tarkvara sagedamini kehtib, sest olenemata sellest, et Windowsi ja Linuxi kasutajate seas leidub illegaalset tarkvara peaaegu sama palju, on esimeste arvuline osakaal tunduvalt suurem. Hüpoteesi, et inimesed, kes kasutavad arvutit päevas vähem, hindavad oma tervist paremaks, ei saa me tõestada, sest nende tunnuste vahel puudub märgatav seos. 17
Kasutatud materjalid Allikad Aine Andmeanalüüs I loengumaterjalid Anne Selarti koostatud praktikumimaterjalid - http://math.ut.ee/~annes/aa1/ Programmid Tarkvarapakett R - http://www.r-project.org/ Kontoritarkvarapakett OpenOffice - http://www.openoffice.org/ Microsoft Paint 18
Lisad Küsitlus võrgupeo külastajatele Palun vastake järgmisele võrgupeo- ja arvutiteemalisele küsitlusele. Kogutud andmeid kasutatakse Tartu Ülikooli aine Andmeanalüüs I raames. Palun vastake nii ausalt ja täpselt kui võimalik. Vastuste tüübid: [...] - tekst (a) - ühe valikuga või rippmenüüga valikvastus, kus a on vastava valiku väärtus andmebaasis [a] - mitme valikuga valikvastus, kus a on vastava valiku järjekorranumber andmebaasis Sugu (1) Mees (2) Naine Vanus [...] Mitu arvutit on sul kodus? (1) 0 (2) 1 (3) 2 (4) 3 (5) 4 (6) rohkem Kuidas hindad oma võõrkeele oskust? (1 - ei valda; 5 - valdan väga hästi) inglise (1) 1 (2) 2 (3) 3 19
(4) 4 (5) 5 vene (1) 1 (2) 2 (3) 3 (4) 4 (5) 5 jaapani (1) 1 (2) 2 (3) 3 (4) 4 (5) 5 Kuidas hindad oma tervist? (1) Hea (2) Keskmine (3) Halb Mitu aastat tagasi ostsid oma kõige uuema arvuti? (1) < 0.5 (2) 0.5-1 (3) 1-2 (4) 2-3 (5) > 3 Mitu korda nädalas tegeled spordiga (mitte küberspordiga)? (1) 0 (2) 1 (3) 2 (4) > 2 20
Millist operatsioonisüsteemi kasutad peamiselt? (1) Linux (2) Mac OS Windows (3) Vista (4) XP (5) 2000 / ME (6) 98 või vanem (7) BSD (8) Muu Mitu tundi päevas kasutad arvutit? (1) < 1 (2) 1-3 (3) 3-5 (4) 5-8 (5) > 8 Sellest kulutad mängimisele? (1) < 1 (2) 1-2 (3) 2-3 (4) 3-4 (5) 4+ Mitmel suuremal võrgupeol oled osalenud? (üle 20 inimese) (1) < 3 (2) 3-6 (3) 7-10 (4) > 10 Kas sinu arvutis leidub illegaalset tarkvara? (1) ei, ei leidu (2) jah, mõni üksik 21
(3) jah, päris palju Milliseid järgnevatest mängudest mängid aktiivselt? FPS [1] Quake 3 [2] Quake 4 [3] Counter-Strike 1.6 [4] Counter-Strike: Source [5] Enemy Territory [6] Call of Duty 2 RTS [7] Command & Conquer seeria [8] Warcraft 3 (ja lisad) TBS [9] Civilization [10] Heroes of Might and Magic Rally [11] Trackmania [12] Flatout [13] Colin McRae seeria Arcade [14] DarkSide Tetris (MMO)RPG [15] Neverwinter Nights [16] World of Warcraft 22