[edit 21.4.24 korjasin pitkän matikan kuvaajan. kiitos Ari Matikainen.]
Yhdistin tiedot Ylioppilaslautakunnan kevään ja syksyn ylioppilaiden arvosanadatasta. Tämä yhdistettykin tieto vakuuttaa ainakin minut, että tytöt pärjäävät paremmin kuin pojat ylioppilaskokeessa (keskimäärin).
himpun verran taustaa
Muutama vuosi sitten aloin tutkia Ylioppilaslautakunnan julkaisemia oppilaitoskohtaisia tunnuslukutiedostoja eri taulukkolaskentaohjelmien Pivot-taulukkotoiminnoilla. Niiden avulla sai helposti tehtyä erilaisia jakaumia liittyen eri aineisiin. Jossain vaiheessa halusin automatisoida laskentaa ja kuvaajien piirtoa. Python-kielen ja varsinkin sen pandas-kirjaston avulla big datan käsittely onnistuu suhteellisen helposti. Suhteellisen helposti tarkoittaa tässä opiskelua, sähköisten kirjojen selailua, googlailua, kokeilua, yritystä ja erehdystä, turhautumista ja onnistumisen tuntemuksia.
Jo tytöt/pojat vertailujeni alkuvaiheessa yllätyin siitä, kuinka suuria erot ovat niin monessa aineessa. Joihinkin kysymyksiin haluaisin tietää vastauksen. Mitä laskentani tulokset kertovat suomalaisesta koulujärjestelmästä ja erityisesti lukiosta? Onko se, että tytöt menestyvät monessa oppiaineessa paremmin kuin pojat tasa-arvoon liittyvä ongelma? Onko se, että pojat menestyvät joissakin oppiaineissa paremmin kuin tytöt tasa-arvoon liittyvä ongelma? Jos kyseessä on jonkin sortin ongelma, niin miten se ratkaistaan?
Olen eläkkeellä oleva opettaja, en tilastotieteilijä tai tutkija. Big datan tutkiminen on minulle harrastus. En tee hypoteeseja, jätän tilastollisen tutkimuksen alan ammattilaisille.
Ylioppilastutkintolautakunnan julkaisemissa tiedostoissa on paljon ylioppilasoppilaskohtaista tietoa: koulu, sukupuoli, opetuskieli, puoltoäänien lukumäärä ja eri oppiaineiden arvosanat. Kevään tiedostossa oli noin 25300 riviä ja 50 saraketta, syksyn tiedostossa noin 4400 riviä. Kun yhdistin tämän kevään ja syksyn tiedostot, niin taulukossa oli noin 30000 riviä ja 50 saraketta. Suurin osa tämän artikkelin laskennosta on suoritettu Python-koodilla. Jotkut kuvaajat ja taulukot sekä tarkistuslaskenta on tehty Google Sheets taulukkolaskentaohjelmalla. Erityisesti Google Sheetsin Saraketilastot työkalu on kätevä työkalu sarakkeiden jakaumien tutkimiseen.
Linkit edellisiin aiheen artikkeleihin ja tässä tarinassa käytettyyn lähdekoodiin löytyy artikkelin lopusta.
2023 ylioppilaat
Alla olevat kuvaajat ja taulukot on tuotettu yhdistämällä Ylioppilaslautakunnan julkaisemat tiedostot kevään ja syksyn 2023 ylioppilaista.
Tänä vuonna 2023 ylioppilaiksi valmistui 17342 (58,3 %) tyttöä ja 12416 (41,7 %) poikaa, yhteensä 29758. Vuoden 23 ylioppilaiden puoltoäänien summan keskiarvo oli tytöillä 24,1 ja pojilla keskiarvo 22,5. Tytöt kirjoittivat keskimäärin 5,56 ainetta, pojat 5,35 ainetta. Ylioppilasarvosanojen keskiarvo tytöillä oli 4,34 ja pojilla 4,21. Tytöt olivat keskiarvoissa laskettuna 0,13 arvosanaa ”parempia” kuin pojat.
Pojilla suurin puoltoäänien summa oli 78 ja tytöillä 64. Kyseinen poika opiskeli Parolan lukiossa ja tytön lukio oli Gymnasiet Lärkan.

Tytöt kirjoittivat keskimäärin 5,6 ainetta, pojat 5,4 ainetta.

Alla olevassa kuvaajassa näkyy sellaiset kirjoitetut aineet, joissa osallistujia oli yli 1000 kokelasta.

eri aineiden arvosanajakaumia
Tein arvosanajakaumat niille aineille, joita oli kirjoitettu yli 3000 kertaa. Tällaisia aineita olivat: EA, A, N, M, BB, BI, PS, YH, FY, HI, TE, KE.
Pitkää englantia EA kirjoitti 15636 tyttöä ja 11713 poikaa.

Äidinkieltä A kirjoitti 15505 tyttöä ja 11001 poikaa.

Lyhyttä matematiikkaa N 8349 tyttöä ja 5522 poikaa.

Pitkää matematiikkaa M kirjoitti 6760 tyttöä ja 6422 poikaa.

Keskipitkää ruotsia BB kirjoitti 6547 tyttöä ja 2309 poikaa.

Biologiaa BI kirjoitti 6347 tyttöä ja 2279 poikaa.

Psykologiaa PS kirjoitti 6954 tyttöä ja 1321 poikaa.

Yhteiskuntaoppia YH kirjoitti 3344 tyttöä ja 4325 poikaa. Yhteiskuntaoppi, fysiikka, historia olivat ainoat aineet yli kolmen tuhannen kirjoittajan aineista, joita pojat kirjoittivat enemmän kuin tytöt.

Fysiikkaa FY kirjoitti 2832 tyttöä ja 4697 poikaa.

Historiaa HI kirjoitti 3096 tyttöä ja 4323 poikaa.

Terveystietoa TE kirjoitti 4614 tyttöä ja 4323 poikaa.

Historiaa HI kirjoitti 471 tyttöä ja 547 poikaa.

Kemiaa kirjoitti 3401 tyttöä ja 2648 poikaa.

Maantiedettä 2009 tyttöä ja 1915 poikaa.

Evankelisluterilaista uskontoa kirjoitti 2367 tyttöä ja 791 poikaa.

keskiarvot ja keskihajonnat aineittain taulukkona
Alla on taulukko eri aineiden kirjoittaneiden lukumääristä, keskiarvoista ja keskihajonnoista. NaN (Not a Number) on Python kielen tapa ilmaista, että kyseistä lukua ei voi laskea. Esimerkiksi, jos sarakkeella/rivillä ei ole lukuja, niin niistä ei voi laskea keskiarvoa tai keskihajontaa.
Taulukossa sukup tarkoittaa sukupuolta, yht puoltoäänien summaa, lkm kirjoitettujen aineiden lukumäärää ja muut oppiaineita. Oppiainekoodit löytyvät artikkelin lopusta.
| aine | plkm | pkeskiarvo | pkeskihajonta | tlkm | tkeskiarvo | tkeskihajonta |
| sukup | 12416 | 1,000 | 0,000 | 17342 | 2,000 | 0,000 |
| yht | 12416 | 22,531 | 7,643 | 17342 | 24,116 | 8,068 |
| A | 11001 | 3,676 | 1,449 | 15505 | 4,374 | 1,387 |
| O | 911 | 3,423 | 1,515 | 1150 | 4,392 | 1,338 |
| Z | 0 | NaN | NaN | 4 | 5,000 | 0,816 |
| I | 0 | NaN | NaN | 0 | NaN | NaN |
| W | 0 | NaN | NaN | 0 | NaN | NaN |
| Q | 0 | NaN | NaN | 0 | NaN | NaN |
| A5 | 498 | 4,185 | 1,388 | 682 | 4,469 | 1,407 |
| O5 | 8 | 4,875 | 1,642 | 7 | 3,857 | 1,864 |
| M | 6422 | 4,746 | 1,421 | 6760 | 4,465 | 1,344 |
| N | 5522 | 3,973 | 1,319 | 8349 | 3,887 | 1,405 |
| BI | 2279 | 4,303 | 1,489 | 6348 | 4,481 | 1,460 |
| FF | 766 | 4,385 | 1,468 | 1091 | 4,432 | 1,419 |
| FY | 4697 | 4,560 | 1,419 | 2832 | 4,558 | 1,294 |
| HI | 4323 | 4,204 | 1,467 | 3096 | 4,514 | 1,410 |
| PS | 1321 | 3,661 | 1,426 | 6954 | 4,373 | 1,410 |
| UE | 791 | 4,172 | 1,514 | 2367 | 4,343 | 1,405 |
| UO | 8 | 4,000 | 2,070 | 24 | 3,917 | 1,640 |
| ET | 89 | 4,135 | 1,666 | 317 | 4,533 | 1,358 |
| GE | 1915 | 3,959 | 1,419 | 2009 | 4,384 | 1,488 |
| KE | 2648 | 4,761 | 1,483 | 3401 | 4,595 | 1,441 |
| TE | 2004 | 3,331 | 1,288 | 4614 | 4,197 | 1,418 |
| YH | 4325 | 4,017 | 1,460 | 3344 | 4,257 | 1,439 |
| BA | 260 | 4,758 | 1,483 | 670 | 4,536 | 1,694 |
| BB | 2309 | 4,158 | 1,540 | 6547 | 4,418 | 1,524 |
| CA | 483 | 4,617 | 1,279 | 644 | 5,250 | 1,270 |
| CB | 335 | 4,522 | 1,585 | 371 | 4,663 | 1,455 |
| EA | 11813 | 4,548 | 1,472 | 15636 | 4,146 | 1,561 |
| FA | 71 | 4,746 | 1,461 | 147 | 4,980 | 1,426 |
| SA | 118 | 5,119 | 1,391 | 227 | 5,295 | 1,359 |
| PA | 25 | 5,520 | 1,262 | 63 | 5,444 | 1,175 |
| VA | 162 | 6,062 | 1,178 | 250 | 6,228 | 1,068 |
| EC | 471 | 3,934 | 1,443 | 1018 | 4,095 | 1,475 |
| FC | 119 | 4,605 | 1,410 | 429 | 4,772 | 1,406 |
| SC | 440 | 4,466 | 1,469 | 678 | 4,851 | 1,352 |
| PC | 130 | 4,869 | 1,567 | 551 | 4,942 | 1,318 |
| VC | 117 | 4,812 | 1,676 | 183 | 4,798 | 1,686 |
| DC | 0 | NaN | NaN | 4 | 3,750 | 0,957 |
| IC | 1 | 4,000 | NaN | 1 | 4,000 | NaN |
| QC | 0 | NaN | NaN | 0 | NaN | NaN |
| GC | 2 | 6,000 | 1,414 | 7 | 5,571 | 1,902 |
| TC | 16 | 5,875 | 1,408 | 38 | 5,184 | 1,799 |
| L1 | 11 | 5,545 | 1,440 | 20 | 5,100 | 1,553 |
| L7 | 2 | 6,500 | 0,707 | 1 | 7,000 | NaN |
| lkm | 12416 | 5,349 | 0,635 | 17342 | 5,555 | 0,738 |
keskiarvon erotus
Keskiarvojen erotustaulukossa on laskettu poikien ja tyttöjen keskiarvojen erotukset eri aineissa. Miinusmerkkiset erotukset tarkoittavat sitä, että poikien keskiarvo on suurempi kuin tyttöjen.
| aine | erotus | aine | erotus |
| yht | 1,59 | IC | 0,00 |
| sukup | 1,00 | FY | 0,00 |
| O | 0,97 | VC | −0,01 |
| TE | 0,87 | PA | −0,08 |
| PS | 0,71 | UO | −0,08 |
| A | 0,70 | N | −0,09 |
| CA | 0,63 | KE | −0,17 |
| L7 | 0,50 | BA | −0,22 |
| GE | 0,43 | M | −0,28 |
| ET | 0,40 | EA | −0,40 |
| SC | 0,39 | GC | −0,43 |
| HI | 0,31 | L1 | −0,45 |
| A5 | 0,28 | TC | −0,69 |
| BB | 0,26 | O5 | −1,02 |
| YH | 0,24 | ||
| FA | 0,23 | ||
| lkm | 0,21 | ||
| BI | 0,18 | ||
| SA | 0,18 | ||
| UE | 0,17 | ||
| FC | 0,17 | ||
| VA | 0,17 | ||
| EC | 0,16 | ||
| CB | 0,14 | ||
| PC | 0,07 | ||
| FF | 0,05 |
t-testi
Laskin kaikista aineista Studentin t-testin keskiarvon erotuksista. Sen avulla voi selvittää missä aineissa keskiarvot poikkeavat toisistaan tilastollisesti erittäin merkitsevästi (p < 0.001).
Tänä vuonna tytöillä oli tilastollisesti erittäin merkitsevästi (p < 0.001) paremmat keskiarvot poikiin verrattuna seuraavissa aineissa : äidinkieli suomi A, terveystieto TE, psykologia PS, äidinkieli ruotsi O, historia HI, maantiede GE, suomi, pitkä oppimäärä CA, yhteiskuntaoppi YH, ruotsi keskipitkä oppimäärä BB, biologia BI ja saksa lyhyt oppimäärä SC.
Pojilla keskiarvo oli tilastollisesti erittäin merkitsevästi ”parempi” seuraavissa aineissa: kemia KE, pitkä matematiikka M, englanti pitkä oppimäärä EA, lyhyt matematiikka N ja Suomi toisena kielenä A5.
Alla oleva taulukko on laskettu Pythonin scipy.test-kirjaston ttest_ind funktiolla. Sarakkeella t-arvo on testisuure, jonka etumerkistä näkee, kumpi keskiarvo on suurempi. Mikäli sarakkeen p-arvo luku on pienempi kuin 0.001 on kyseessä tilastollisesti erittäin merkitsevä ero. P-arvot, joissa on merkintä 0.0000 ovat pienempiä kuin 0.001.
Järjestin t-testikoodin tuottaman taulukon p-arvon mukaiseen järjestykseen. Vasemman puoleisissa aineissa tytöt olivat tilastollisesti erittäin merkitsevästi ”parempia” kuin pojat, keskellä pojat olivat ”parempia”. Oikealla p-arvo oli suurempi kuin 0,001 eli ero ei ollut tilastollisesti erittäin merkitsevä.
| aine | t-arvo | p-arvo | aine | t-arvo | p-arvo | aine | t-arvo | p-arvo |
| A | −39,3326 | 0,0000 | KE | 4,3683 | 0,0000 | UE | −2,8013 | 0,0052 |
| lkm | −25,8033 | 0,0000 | M | 11,6594 | 0,0000 | ET | −2,0700 | 0,0406 |
| TE | −24,3811 | 0,0000 | EA | 21,8160 | 0,0000 | EC | −1,9890 | 0,0470 |
| yht | −17,2359 | 0,0000 | N | 3,6834 | 0,0002 | BA | 1,9653 | 0,0499 |
| PS | −16,6667 | 0,0000 | A5 | −3,4577 | 0,0006 | TC | 1,5107 | 0,1396 |
| O | −15,1854 | 0,0000 | VA | −1,4512 | 0,1477 | |||
| HI | −9,1611 | 0,0000 | CB | −1,2242 | 0,2213 | |||
| GE | −9,1582 | 0,0000 | FC | −1,1410 | 0,2553 | |||
| CA | −8,2489 | 0,0000 | SA | −1,1271 | 0,2609 | |||
| YH | −7,1812 | 0,0000 | FA | −1,1125 | 0,2679 | |||
| BB | −7,0115 | 0,0000 | O5 | 1,1148 | 0,2866 | |||
| BI | −4,9222 | 0,0000 | L1 | 0,8014 | 0,4314 | |||
| SC | −4,4170 | 0,0000 | FF | −0,6825 | 0,4950 | |||
| PC | −0,4896 | 0,6250 | ||||||
| GC | 0,3480 | 0,7583 | ||||||
| PA | 0,2582 | 0,7975 | ||||||
| UO | 0,1035 | 0,9196 | ||||||
| VC | 0,0712 | 0,9433 | ||||||
| FY | 0,0700 | 0,9442 |
oppiainekoodit
| koe | nimi | koe | nimi |
| A | Äidinkieli, suomi | L1 | Latina, lyhyt oppimäärä |
| A5 | Suomi toisena kielenä | L7 | Latina, pidempi oppimäärä |
| BA | Ruotsi, pitkä oppimäärä | M | Matematiikka, pitkä oppimäärä |
| BB | Ruotsi, keskipitkä oppimäärä | N | Matematiikka, lyhyt oppimäärä |
| BI | Biologia | O | Äidinkieli, ruotsi |
| CA | Suomi, pitkä oppimäärä | O5 | Ruotsi toisena kielenä |
| CB | Suomi, keskipitkä oppimäärä | PA | Espanja, pitkä oppimäärä |
| DC | Pohjoissaame, lyhyt oppimäärä | PC | Espanja, lyhyt oppimäärä |
| EA | Englanti, pitkä oppimäärä | PS | Psykologia |
| EC | Englanti, lyhyt oppimäärä | QC | Koltansaame, lyhyt oppimäärä |
| ET | Elämänkatsomustieto | SA | Saksa, pitkä oppimäärä |
| FA | Ranska, pitkä oppimäärä | SC | Saksa, lyhyt oppimäärä |
| FC | Ranska, lyhyt oppimäärä | TC | Italia, lyhyt oppimäärä |
| FF | Filosofia | TE | Terveystieto |
| FY | Fysiikka | UE | Evankelis-luterilainen uskonto |
| GC | Portugali, lyhyt oppimäärä | UO | Ortodoksi uskonto |
| GE | Maantiede | VA | Venäjä, pitkä oppimäärä |
| HI | Historia | VC | Venäjä, lyhyt oppimäärä |
| I | Äidinkieli, inarinsaame | W | Äidinkieli, koltansaame |
| IC | Inarinsaame, lyhyt oppimäärä | YH | Yhteiskuntaoppi |
| KE | Kemia | Z | Äidinkieli, pohjoissaame |
Lähiaikoina julkaisen artikkelin, jossa piirtelen ainekohtaisia aikasarjoja poikien ja tyttöjen arvosanojen keskiarvoista.
lähteet
Python koodini Colabissa
https://colab.research.google.com/drive/1uTpRkCTUYY0X61UVmODoG-1Zwb-MMNn-?usp=sharing
Scipy t_test manuaali https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html
YTL:n Oppilaitoskohtaisia tunnuslukuja-sivu https://www.ylioppilastutkinto.fi/fi/tietopalvelut/tilastot/oppilaitoskohtaisia-tunnuslukuja
Kevään 23 yo-kokeen jakaumia, tytöt ovat edelleen erilaisia kuin pojat -artikkeli
https://mikkorahikka.blog/2023/11/20/2023-syksyn-ylioppilaiden-arvosanajakaumia-tytot-ja-pojat-ovat-erilaisia/
Kevään 23 yo-kokeen jakaumia, tytöt ovat edelleen erilaisia kuin pojat -artikkeli https://mikkorahikka.blog/2023/06/20/kevaan-23-yo-kokeen-jakaumia-tytot-ovat-edelleen-erilaisia-kuin-pojat/
Aiemmat artikkelini aiheeseen liittyen
https://mikkorahikka.blog/tag/ylioppilaskoe/

Jätä kommentti