[edit 20.1.20 Lisäsin yo-koematriisikuvan oheen taulukon aineiden lyhennyksistä luettavuuden parantamiseksi.]
GeoGebran Kahden muuttujan analyysi -työkalulla on helppoa tuottaa kahden muuttujan tilastosta korrelaatiokaavio, samalla saa useiden tilastollisten tunnuslukujen arvot, kuten esimerkiksi korrelaatiokertoimen. Valitettavasti GeoGebrassa ei ole mahdollisuutta tuottaa korrelaatiomatriisia. Se kannattaakin tuottaa Abittijärjestelmässä LibreOfficen Calcilla. Tietysti saman voi tehdä myös Excelillä.
pieni esimerkki
Kuvan LibreOffice Calcin taulukossa on pienen opetusryhmän oppilaiden pituus senttimetreinä, kengännumero ja syntymäkuukausi. Tiedosto löytyi koneeni uumenista, joten se voi olla myös jonkin oppikirjan dataa tai sitten ihan oikea kysely omilta oppilailtani.

Valitaan alue A1:C12, toki otsikot voi jättää poiskin valinnasta. Valitaan Data-valikosta Tilastotiedot -> Korrelaatio… Avautuvaan ikkunaan laitetaan tulosmatriisin vasen ylänurkan paikka ja valitaan OK.

Alkuperäisen taulukon sarakkeet eivät tulostu korrelaatiomatriisiin.

Valitaan alkuperäiset otsikot alueelta A1:C1, kopioidaan ja sijoitetaan ne soluun F1. LibreOffice varoittaa sijoituksesta, ei välitetä siitä. Pystyotsikot saadaan paikoilleen klikkaamalla soluun E2 hiiren oikealla painikkeella. Avautuvassa valikossa valitaan Liitä määräten -> Liitä Määräten. Avautuvassa ikkunassa laitetaan ruksi kohtaan Transponoi.


iso esimerkki ytl:n datasta
Kirjoitin jokin aika sitten Pivot taulukko-komennosta ”Ylioppilasdatan louhimista Pivot-taulukoilla” ja ”Pivot ja Excel YTL:n datasta”. Näissä käytin csv-tiedostoa, jossa on jokaisen keväällä 19 kirjoittaneiden opiskelijoiden ylioppilaskoetulokset. Käytän tässä tässä samaa tiedostoa https://www.ylioppilastutkinto.fi/ext/data/FT2019KD3001.csv.
Oheinen linkki lataa tiedoston tietokoneen Lataukset-kansioon. Kun tiedosto avataan LibreOfficella, niin isohkon tietomäärän saa näkyville. Tiedostossa on noin 26000 riviä ja sarakkeita on 51 kappaletta. Tiedoston otsakerivin koodit selkokielisenä löytyvät sivulta https://www.ylioppilastutkinto.fi/ext/data/FT2016KD0010.csv.

Poistin kirjoitetuista aineista sellaiset, joissa oli vähän kirjoittajia < 100, näin sain korrelaatiomatriisin hieman pienemmäksi. Edellä esitetyllä tavalla loin korrelaatiomatriisin eri kirjoitettujen aineiden välille. Väritin ne solut, joissa korrelaatiokerroin r > 0,8 (voimakas) punaiseksi, 0,6 < r ≤ 0,8 (huomattava) keltaiseksi ja r < -0,6 vihreäksi.
Minua itseäni ihmetyttää eniten se, että äidinkielellä ei ole tuon suurempia korrelaatiokertoimia muiden aineiden kanssa. Sitä vastoin biologialla ja maantieteellä on huomattava tai kohtalainen korrelaatio yhdeksän kirjoitettavan aineen kanssa. Toisaalta pitkällä matematiikalla kohtalainen korrelaatio on vain fysiikan ja kemian kanssa.

Alla kirjoitettavien aineiden tulkinta.

Jätän lukijan ihmettelemään yo-korrelaatiomatriisia ja tekemään syistä ja seurauksista omia tulkintojaan.
3 Replies to “Korrelaatiomatriisi LibreOfficella YTL:n datasta”