Kevään 22 yo-kirjoitusten tuloksien korrelaatiomatriisi Pythonilla


Tänä keväänä opiskelin Pythonia ja Pandas+Seaborn -kirjastoja sen verran, että pystyin tuottamaan korrelaatiomatriisin taas uudella tavalla. Big datan kanssa puuhasteleminen on kivaa, ongelmaksi tulee se mitä tietoa siitä kaivaa ja miten sen esittää. Matriisi osoittaa (minun mielestäni), että ei-matemaattiset reaaliaineet (bi, et, hi, ge, ff) ennustavat parhaiten ylioppilaiden kokonaismenestystä ylioppilaskokeessa.

edelliset tarinat aiheesta

Vuoden 19 ylioppilaskoematriisi LibreOfficella ​​https://mikkorahikka.blog/2020/01/20/korrelaatiomatriisi-libreofficella-ytln-datasta/

Vuoden 21 ylioppilaskoematriisi Excelillä https://mikkorahikka.blog/2021/05/28/kevaan-21-yo-kirjoitusten-korrelaatiomatriisi/

22 korrelaatiomatriisit

Tähän käytetty tiedosto löytyy ytl:n sivulta https://www.ylioppilastutkinto.fi/tietopalvelut/tilastot/koulukohtaisia-tunnuslukuja

ja itse tiedosto on osoitteessa https://www.ylioppilastutkinto.fi/ext/data/FT2022KD3001.csv

Loin Pythonilla taulukon, jossa oli vain oppilaiden puoltoäänien summa (”yht”) ja eri kirjoituksista saadut arvosanat (”a ” = 2, ”b” = 3, …, ”l”  = 7) . Poistin taulukosta sellaiset aineet, joita oli kirjoitettu alle 100 kertaa. Loin korrelaatiomatriisin siten, että mukaan laskettiin vain ne aineparit, jossa vähintään 20 oppilasta oli kirjoittanut kyseiset aineet.

Klikkaamalla kuvaan, saat sen avautumaan isompana uuteen välilehteen.

Ainekoodit ovat alla. En todellakaan muista mistä löysin nuo alunperin, kaipa ne ovat jossain YTL:n sivuilla.

Tein vielä toisen matriisin, poistin tästä osan oikean reunan kielistä. Tuota on ehkä hieman mukavampi katsella. Toki se hävittää kielten väliset korrelaatiot.

pari kommenttia

Miten näitä matriisejaa pitäisi tulkita. En oikeasti ole tilastotieteilijä, mutta muutamia kommentteja voin tähän raapaista. Käytän tässä tuota ylempää kuvaa.

Parhaiten ylioppilaskokeen puoltoäänien määrää ennustaa menestyminen biologiassa ja elämänkatsomustiedossa (r = 0.77).  Lähes sama korrelaatiokerroin oli historialla, ev-lut.uskonnolla, maantieteellä ja keskipitkällä ruotsilla ( r = 0.75). 

Laskemalla selitysasteiden summan eli korrelaatiokerreinten summan, sain podiumille biologian (Σr^2 = 9), psykologian (Σr^2 = 8.9) ja tasapisteillä historian ja keskipitkän ruotsin (Σr^2 = 8.5).

Sellaisia korrelaatioita, jotka olivat yli 0.6 oli eniten biologiassa (12) filosofiassa (11) ja uskonnossa ja maantieteessä (10).

Suurimmat aineiden väliset korrelaatiot olivat elämänkatsomustiedon ja historian välillä sekä elämänkatsomustiedon ja filosofian välillä (0.82)

Nämä tulokset ovat aika samantyyppisiä kuin vuosina 19 ja 21. Yo-kokeessa menestymistä ennustanee parhaiten menestyminen ei-matemaattisissa  reaaliaineissa. Tarkoittaako tämä sitä, että reaaliaineissa pärjäävät pärjäävät muissakin aineissa vai sitä, että yo-koe yleisesti mittaa reaaliaineissa opittuja tietoja ja taitoja enemmän kuin muita tietoja ja taitoja? En tiedä?


Kunhan opin Pythonia lisää, niin teen oikeasti vertailuja muutoksista aikaisempiin vuosiin. Itse koodin julkaisen lähipäivinä, kunhan saan koodin siivotuksi.

2 Replies to “Kevään 22 yo-kirjoitusten tuloksien korrelaatiomatriisi Pythonilla”

    1. Ne ovat korrelaatiokertoimia. On siellä negatiivisiakin, esim. SA ja UE, siinä isommasssa taulukossa. Seuraavassa artikkelissa on tuo koodi.
      M

      Tykkää

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d bloggaajaa tykkää tästä: