[21.11.23 korjasin p-arvon 0.001 tulkinnan, se pitää olla ”tilastolisesti erittäin merkitsevä”, kiitos Mauno Korpelainen ]
Viime helmikuussa laskin vuoden 2023 ylioppilaiden arvosanajakaumia. Tein samankaltaisia laskelmia tämän kevään ylioppilaiden yo-tuloksista. Tänäkin keväänä tyttöjen arvosanakeskiarvot ovat aika paljon parempia kuin poikien useassa aineessa.
Käytän tässä aineistona Ylioppilaslautakunnan sivulta Oppilaitoskohtaisia tunnuslukuja löytyvää tiedostoa https://tiedostot.ylioppilastutkinto.fi/ext/data/FT2023KD3001.csv Tässä tiedostossa on kaikkien ylioppilaiden tulokset ja se ei päivity, eli mahdolliset korjaukset tuloksiin eivät näy tässä tiedostossa. Taulukoissa näkyvät aineiden koodit löytyvät tarinan lopusta.
Suurimman osan laskennosta tein kirjoittamallani Python-koodilla. Osan kuvaajista on tein GeoGebralla ja Google Docsilla. Samalla tuli tarkistettua, että koodini laskee oikein.
puoltoäänet
Ylioppilaita valmistui 25303, puoltoäänien keskiarvo oli 23.8 ja keskihajonta 7.9.
Tyttöjä valmistui 14553, puoltoäänien keskiarvo oli 24.4, keskihajonta 8.0. Poikia valmistui 10750, keskiarvo 23.0, keskihajonta 7.6. Kuvaajakin näyttää tyttöjen olevan parempia puoltoäänissä.

Joitakin aineita
Piirtelin Pythonin matplotlib-kirjaston avulla jakaumakuvaajia joistakin aineista. Keskiarvon laskemisessa arvosana i koodataan nollaksi, a vastaa lukua 2, b 3, …, laudatur vastaa lukua 7.
Äidinkielessä tyttöjen keskiarvo oli 4.4 ja poikien 3.7.

Toinen sellainen aine, missä tyttöjen ja poikien ero oli suuri, on terveystieto. Tyttöjen arvosanojen keskiarvo oli 4.2, poikien 3.4.

Pitkässä ja lyhyessä matematiikassa pojilla oli jonkin verran paremmat arvosanakeskiarvot. Pitkässä tyttöjen arvosanakeskiarvo oli 4.5 ja pojilla 4.8.


Lyhyessä matematiikassa tyttöjen arvosanakeskiarvo oli 3.9, pojilla 4.0.
tyttöjen ja poikien ero
Laskin kaikissa aineissa poikien ja tyttöjen lukumäärät, arvosanojen keskiarvot ja keskihajonnat. Taulukossa näkyy rivi yht, se tarkoittaa puoltoäänien summaa. Rivi lkm, se tarkoittaa kirjoitettujen aineiden lukumäärää. NaN tarkoittaa sitä, että kyseistä arvoa ei voi laskea.

Seuraavaan taulukkoon laskin tyttöjen ja poikien arvosanojen keskiarvojen erotuksen. Plusmerkki kertoo, että tyttöjen keskiarvo on suurempi.

t-testi
Laskin kaikista aineista Studentin t-testin keskiarvon erotuksista. Sen avulla voi selvittää missä aineissa keskiarvot poikkeavat toisistaan tilastollisesti erittäin merkitsevästi (p < 0.001).
Tytöillä paremmat arvosanojen keskiarvot olivat suomessa (A) , ruotsissa (O) ja suomessa toisena äidinkielenä (A5), biologiassa, historiassa, psykologiassa, maantieteessä, terveystiedossa, yhteiskuntaopissa, keskipitkässä ruotsissa, suomen pitkässä oppimäärässä ja lyhyessä saksassa. Tytöillä myös puoltoäänien määrä ja kirjoitettujen aineiden lukumäärä oli tilastollisesti erittäin merkitsevästi suurempi kuin pojilla.
Pojilla oli tilastollisesti erittäin merkitsevästi paremmat keskiarvot olivat pitkässä ja lyhyessä matematiikassa, kemiassa sekä pitkässä englannissa.
Alla oleva taulukko on laskettu Pythonin scipy.test-kirjaston ttest_ind funktiolla. Sarakkeella t-arvo on testisuure, jonka etumerkistä näkee kumpi keskiarvo on suurempi. Mikäli sarakkeen p-arvo luku on pienempi kuin 0.001 on kyseessä tilastollisesti erittäin merkitsevä ero. P-arvot, joissa on merkintä 0.0000 ovat pienempiä kuin 0.0001.

lopuksi
Tällä kertaa en piirrellyt useampia kuvaajia. Ohessa on tarjolla lähdekoodi. Avaa se. Tee koodista kopio omaan Driveesi. Jos haluat piirtää omia kuvaajia, niin muuta ”Kaikki yhdessä” koodissa rivien 82 ja 84 ainekoodi haluamaksesi ja muuta rivin 86 kuvaajan otsikko.
lähteet/liitteet
Koodi Colabissa https://colab.research.google.com/drive/1yMuOM5tCKjMYRqWESyPwzCIWYss2lC_i?usp=sharing
Aiemmat artikkelini aiheeseen liittyen
https://mikkorahikka.blog/tag/ylioppilaskoe/
Aineiden koodit


Jätä kommentti 2024 kevään ylioppilaiden jakaumia – tytöt on tehty kukkasista ja pojat koiranhännän tupsukoista – Mikon fysiikka ja matikka Peruuta vastaus