Syksyn 2022 ylioppilastutkinnon tuloksien korrelaatiomatriisi 

Julkaisin kesäkuussa tarinan aiheesta ”Kevään 22 yo-kirjoitusten tuloksien korrelaatiomatriisi Pythonilla”. Tuotin syksyn yo-tuloksista samat matriisit. Edelleenkin vaikuttaa siltä, että ei-matemaattiset reaaliaineet ovat kovasti esillä, kun pohditaan, minkä aineen tulos korreloi parhaiten ylioppilaskokeen kokonaismenestymisen kanssa.

Linkit tässä tarinassa käytettyihin tiedostoihin ja koodiin löytyvät tarinan lopusta.

Korrelaatiomatriisi

Syksyllä 22 ylioppilaita valmistui 4466 kappaletta, onnittelut heille. Käytin matriisin tuotossa samaa koodia, kuin kesäkuun tarinassani. Loin taulukon, jossa oli vain oppilaiden puoltoäänien summa (yht) ja eri kirjoituksista saadut arvosanat (”a” = 2, ”b” = 3, …, ”l” = 7) . Poistin taulukosta sellaiset aineet, joita oli kirjoitettu alle 100 kertaa. Loin korrelaatiomatriisin siten, että mukaan laskettiin vain ne aineparit, joissa vähintään 20 oppilasta oli kirjoittanut kyseiset aineet. Lisäsin oikeaan reunaan kaksi saraketta. Sarakkeelle ”∑r2” laskin korrelaatiokertoimien neliöiden eli selitysasteiden summan ja sarakkeelle ”yli .6” laskin niiden korrelaatioden lukumäärän, jotka olivat suurempia kuin 0.6.

Mikäli haluat tuottaa itsellesi erilaisia tuotoksia, niin valmis koodini kommentoituna löytyy Colabista, linkki on Lähteet-luvussa.

pari kommenttia

Parhaiten ylioppilaan puoltoäänien määrää (yht) ennustaa tulkintani mukaan menestyminen evankelis-luterilaisen uskonnon yo-kokeessa (UE, r = 0.80). Biologialla (BI), filosofialla (FF) ja psykologialla (PS) korrelaatiokerroin on lähes sama 0,79. Kevään 22 ylioppilailla korkeimmat korrelaatiot puoltoäänien summan kanssa olivat: historia, evankelis-luterilainen uskonto, maantiede (GE) ja keskipitkä ruotsi (BB); r = 0.75.

Korkeimmat selitysasteiden summat syksyllä: biologia ∑r= 8.5, fysiikka (FY), historia, psykologia ja keskipitkä ruotsi ∑r= 7.1. Kevään ylioppilailla suurimat selitysasteiden summat olivat: biologia (Σr2 = 9), psykologia (Σr2 = 8.9) sekä historia ja keskipitkä ruotsi (Σr2 = 8.5).

Suurimmat aineiden väliset korrelaatiot olivat: yhteiskuntaoppi/biologia r = 0.82, keskipitkä ruotsi/lyhyt englanti (EC) r = 0.81 ja fysiikka/pitkä matikka (M) r = 0.78. Keväällä 22 suurimmat aineiden väliset korrelaatiot: elämänkatsomustieto/historia r = 0.82, elämänkatsomustieto/filosofia ja filosofia/uskonto r = 0.80.

Kesällä jotkut henkilöt olivat sitä mieltä, että kirjoitettujen aineiden lukumäärää olisi mielenkiintoista tutkia. Tein myös sitä varten oman taulukon, johon aineiden oikealle puolelle lisäsin sarakkeen lkm, johon laskin kirjoitettujen aineiden lukumäärän. Havaitaan, että lkm-muuttujan ja kokonaispistemäärän välinen korrelaatio on suuri 0.73, mutta lkm ei juurikaan korreloi minkään yksittäisen aineen kanssa.

Lähteet

Tähän tarinaan liittyvä koodi Google Colabissa

https://colab.research.google.com/drive/1O1koEa0SGWZTCqDzjYEySyPrIkwdjrmv?usp=sharing

Aiemmat aiheeseen liittyvät artikkelit blogissani

Ylioppilaslautakunnan tiedostot

Tähän käytetty tiedosto löytyy ytl:n sivulta  https://www.ylioppilastutkinto.fi/tietopalvelut/tilastot/koulukohtaisia-tunnuslukuja
sieltä löytyy linkki myös oppiainekoodeihin ja miten tiedostojen nimet on koodattu. Itse tiedosto on osoitteessa https://www.ylioppilastutkinto.fi/ext/data/FT2022SD3001.csv

Kevään 22 yo-kirjoitusten tuloksien korrelaatiomatriisi Pythonilla


Tänä keväänä opiskelin Pythonia ja Pandas+Seaborn -kirjastoja sen verran, että pystyin tuottamaan korrelaatiomatriisin taas uudella tavalla. Big datan kanssa puuhasteleminen on kivaa, ongelmaksi tulee se mitä tietoa siitä kaivaa ja miten sen esittää. Matriisi osoittaa (minun mielestäni), että ei-matemaattiset reaaliaineet (bi, et, hi, ge, ff) ennustavat parhaiten ylioppilaiden kokonaismenestystä ylioppilaskokeessa.

edelliset tarinat aiheesta

Vuoden 19 ylioppilaskoematriisi LibreOfficella ​​https://mikkorahikka.blog/2020/01/20/korrelaatiomatriisi-libreofficella-ytln-datasta/

Vuoden 21 ylioppilaskoematriisi Excelillä https://mikkorahikka.blog/2021/05/28/kevaan-21-yo-kirjoitusten-korrelaatiomatriisi/

22 korrelaatiomatriisit

Tähän käytetty tiedosto löytyy ytl:n sivulta https://www.ylioppilastutkinto.fi/tietopalvelut/tilastot/koulukohtaisia-tunnuslukuja

ja itse tiedosto on osoitteessa https://www.ylioppilastutkinto.fi/ext/data/FT2022KD3001.csv

Loin Pythonilla taulukon, jossa oli vain oppilaiden puoltoäänien summa (“yht”) ja eri kirjoituksista saadut arvosanat (“a ” = 2, “b” = 3, …, “l”  = 7) . Poistin taulukosta sellaiset aineet, joita oli kirjoitettu alle 100 kertaa. Loin korrelaatiomatriisin siten, että mukaan laskettiin vain ne aineparit, jossa vähintään 20 oppilasta oli kirjoittanut kyseiset aineet.

Klikkaamalla kuvaan, saat sen avautumaan isompana uuteen välilehteen.

Ainekoodit ovat alla. En todellakaan muista mistä löysin nuo alunperin, kaipa ne ovat jossain YTL:n sivuilla.

Tein vielä toisen matriisin, poistin tästä osan oikean reunan kielistä. Tuota on ehkä hieman mukavampi katsella. Toki se hävittää kielten väliset korrelaatiot.

pari kommenttia

Miten näitä matriisejaa pitäisi tulkita. En oikeasti ole tilastotieteilijä, mutta muutamia kommentteja voin tähän raapaista. Käytän tässä tuota ylempää kuvaa.

Parhaiten ylioppilaskokeen puoltoäänien määrää ennustaa menestyminen biologiassa ja elämänkatsomustiedossa (r = 0.77).  Lähes sama korrelaatiokerroin oli historialla, ev-lut.uskonnolla, maantieteellä ja keskipitkällä ruotsilla ( r = 0.75). 

Laskemalla selitysasteiden summan eli korrelaatiokerreinten summan, sain podiumille biologian (Σr^2 = 9), psykologian (Σr^2 = 8.9) ja tasapisteillä historian ja keskipitkän ruotsin (Σr^2 = 8.5).

Sellaisia korrelaatioita, jotka olivat yli 0.6 oli eniten biologiassa (12) filosofiassa (11) ja uskonnossa ja maantieteessä (10).

Suurimmat aineiden väliset korrelaatiot olivat elämänkatsomustiedon ja historian välillä sekä elämänkatsomustiedon ja filosofian välillä (0.82)

Nämä tulokset ovat aika samantyyppisiä kuin vuosina 19 ja 21. Yo-kokeessa menestymistä ennustanee parhaiten menestyminen ei-matemaattisissa  reaaliaineissa. Tarkoittaako tämä sitä, että reaaliaineissa pärjäävät pärjäävät muissakin aineissa vai sitä, että yo-koe yleisesti mittaa reaaliaineissa opittuja tietoja ja taitoja enemmän kuin muita tietoja ja taitoja? En tiedä?


Kunhan opin Pythonia lisää, niin teen oikeasti vertailuja muutoksista aikaisempiin vuosiin. Itse koodin julkaisen lähipäivinä, kunhan saan koodin siivotuksi.

Kevään 21 yo-kirjoitusten korrelaatiomatriisi

[edit 28.5. korjasin kirjoitusvihreitä ja lisäsin linkin originaalitiedostoon]

Toissa vuonna laskin LibreOfficella korrelaatiomatriisin kevään 19 ylioppilaskirjoitustuloksista. Silloin minua ihmetytti, että äidinkielellä ei ollut kovinkaan suuria korrelaatiokertoimia muiden aineiden kanssa. Biologialla ja maantieteellä oli huomattava tai voimakas yhdeksän eri aineen kanssa. Katso https://mikkorahikka.blog/2020/01/20/korrelaatiomatriisi-libreofficella-ytln-datasta/

Tänä keväänä tuotin saman matriisin käyttäen Exceliä. Sopivasti kopiomalla ja liittämällä transpoosin sain aikaan koko matriisin. Samalla muokkasin tietoja sen verran, että merkkasin korrelaation nollaksi niille ainepareille, joilla ei ollut vähintään kahta kirjoittajaa molemmissa aineissa. Laskin mukaan vain sellaiset aineet, joissa kirjoittajia oli yli 100.

Tällä kertaa laskin myös korrelaation kokonaispisteiden kanssa ja vielä lisäksi selitysasteiden eli korrelaatiokertoimien neliöiden summan kaikille aineille (kolmanneksi oikean puoleisin sarake). Toiseksi oikeanpuoleisella sarakkeella on laskettu niiden solujen lukumäärä, joissa r > 0,6 kyseisellä rivillä.

Avaa kuva suurena omaan välilehteen.

Tänä keväänä ihmetyttää se, että elämänkatsomustiedolla on korrelaatiokerroin huomattava tai voimakas ( > 0,6) 14 eri oppiaineen kanssa. Lukumäärän perusteella myös uskonto, yhteiskuntaoppi, biologia, psykologia ja ranskan lyhyt oppimäärä ovat sellaisia aineita, että niillä r > 0,6 usean muun aineen kanssa.

Kun tutkitaan selitysasteen summia, niin suurimmat summat ovat elämänkatsomustiedolla, yhteiskuntaopilla, uskonnolla, lyhyellä saksalla ja biologialla. 

Elämänkatsomustietoa kirjoitti vain 171 kokelasta, se voi selittä jonkin verran tätä tulosta.

Mitäköhän tämä tarkoittaa? Mitä se kertoo lukiostamme ja ylioppilaskokeesta yleensä?

Alla kuva aineiden lyhenteistä.

Alkuperäinen csv-tiedosto löytyy osoitteesta https://www.ylioppilastutkinto.fi/ext/data/FT2021KD3001.csv