Tänä keväänä opiskelin Pythonia ja Pandas+Seaborn -kirjastoja sen verran, että pystyin tuottamaan korrelaatiomatriisin taas uudella tavalla. Big datan kanssa puuhasteleminen on kivaa, ongelmaksi tulee se mitä tietoa siitä kaivaa ja miten sen esittää. Matriisi osoittaa (minun mielestäni), että ei-matemaattiset reaaliaineet (bi, et, hi, ge, ff) ennustavat parhaiten ylioppilaiden kokonaismenestystä ylioppilaskokeessa.
edelliset tarinat aiheesta
Vuoden 19 ylioppilaskoematriisi LibreOfficella https://mikkorahikka.blog/2020/01/20/korrelaatiomatriisi-libreofficella-ytln-datasta/
Vuoden 21 ylioppilaskoematriisi Excelillä https://mikkorahikka.blog/2021/05/28/kevaan-21-yo-kirjoitusten-korrelaatiomatriisi/
22 korrelaatiomatriisit
Tähän käytetty tiedosto löytyy ytl:n sivulta https://www.ylioppilastutkinto.fi/tietopalvelut/tilastot/koulukohtaisia-tunnuslukuja
ja itse tiedosto on osoitteessa https://www.ylioppilastutkinto.fi/ext/data/FT2022KD3001.csv
Loin Pythonilla taulukon, jossa oli vain oppilaiden puoltoäänien summa (”yht”) ja eri kirjoituksista saadut arvosanat (”a ” = 2, ”b” = 3, …, ”l” = 7) . Poistin taulukosta sellaiset aineet, joita oli kirjoitettu alle 100 kertaa. Loin korrelaatiomatriisin siten, että mukaan laskettiin vain ne aineparit, jossa vähintään 20 oppilasta oli kirjoittanut kyseiset aineet.
Klikkaamalla kuvaan, saat sen avautumaan isompana uuteen välilehteen.

Ainekoodit ovat alla. En todellakaan muista mistä löysin nuo alunperin, kaipa ne ovat jossain YTL:n sivuilla.
Tein vielä toisen matriisin, poistin tästä osan oikean reunan kielistä. Tuota on ehkä hieman mukavampi katsella. Toki se hävittää kielten väliset korrelaatiot.

pari kommenttia
Miten näitä matriisejaa pitäisi tulkita. En oikeasti ole tilastotieteilijä, mutta muutamia kommentteja voin tähän raapaista. Käytän tässä tuota ylempää kuvaa.
Parhaiten ylioppilaskokeen puoltoäänien määrää ennustaa menestyminen biologiassa ja elämänkatsomustiedossa (r = 0.77). Lähes sama korrelaatiokerroin oli historialla, ev-lut.uskonnolla, maantieteellä ja keskipitkällä ruotsilla ( r = 0.75).
Laskemalla selitysasteiden summan eli korrelaatiokerreinten summan, sain podiumille biologian (Σr^2 = 9), psykologian (Σr^2 = 8.9) ja tasapisteillä historian ja keskipitkän ruotsin (Σr^2 = 8.5).
Sellaisia korrelaatioita, jotka olivat yli 0.6 oli eniten biologiassa (12) filosofiassa (11) ja uskonnossa ja maantieteessä (10).
Suurimmat aineiden väliset korrelaatiot olivat elämänkatsomustiedon ja historian välillä sekä elämänkatsomustiedon ja filosofian välillä (0.82)
Nämä tulokset ovat aika samantyyppisiä kuin vuosina 19 ja 21. Yo-kokeessa menestymistä ennustanee parhaiten menestyminen ei-matemaattisissa reaaliaineissa. Tarkoittaako tämä sitä, että reaaliaineissa pärjäävät pärjäävät muissakin aineissa vai sitä, että yo-koe yleisesti mittaa reaaliaineissa opittuja tietoja ja taitoja enemmän kuin muita tietoja ja taitoja? En tiedä?
Kunhan opin Pythonia lisää, niin teen oikeasti vertailuja muutoksista aikaisempiin vuosiin. Itse koodin julkaisen lähipäivinä, kunhan saan koodin siivotuksi.
Onko nuo korrelaatiokertoimia vai niiden neliöitä? SIlmään otti heti, että yhteeän negatiivista korrelaatiota ei näkynyt.
TykkääTykkää
Ne ovat korrelaatiokertoimia. On siellä negatiivisiakin, esim. SA ja UE, siinä isommasssa taulukossa. Seuraavassa artikkelissa on tuo koodi.
M
TykkääTykkää