MIKKO RAHIKKA

The electrical things have their lives too, paltry as those lives are.


2023 ylioppilaiden jakaumia – tytöt on tyttöjä ja pojat poikia

[edit 21.4.24 korjasin pitkän matikan kuvaajan. kiitos Ari Matikainen.]

Yhdistin tiedot Ylioppilaslautakunnan kevään ja syksyn ylioppilaiden arvosanadatasta. Tämä yhdistettykin tieto vakuuttaa ainakin minut, että tytöt pärjäävät paremmin kuin pojat ylioppilaskokeessa (keskimäärin).

himpun verran taustaa

Muutama vuosi sitten aloin tutkia Ylioppilaslautakunnan julkaisemia oppilaitoskohtaisia tunnuslukutiedostoja eri taulukkolaskentaohjelmien Pivot-taulukkotoiminnoilla. Niiden avulla sai helposti tehtyä erilaisia jakaumia liittyen eri aineisiin. Jossain vaiheessa halusin automatisoida laskentaa ja kuvaajien piirtoa. Python-kielen ja varsinkin sen pandas-kirjaston avulla big datan käsittely onnistuu suhteellisen helposti. Suhteellisen helposti tarkoittaa tässä opiskelua, sähköisten kirjojen selailua, googlailua, kokeilua, yritystä ja erehdystä, turhautumista ja onnistumisen tuntemuksia.

Jo tytöt/pojat vertailujeni alkuvaiheessa yllätyin siitä, kuinka suuria erot ovat niin monessa aineessa. Joihinkin kysymyksiin haluaisin tietää vastauksen. Mitä laskentani tulokset kertovat suomalaisesta koulujärjestelmästä ja erityisesti lukiosta? Onko se, että tytöt menestyvät monessa oppiaineessa paremmin kuin pojat tasa-arvoon liittyvä ongelma? Onko se, että pojat menestyvät joissakin oppiaineissa paremmin kuin tytöt tasa-arvoon liittyvä ongelma? Jos kyseessä on jonkin sortin ongelma, niin miten se ratkaistaan?

Olen eläkkeellä oleva opettaja, en tilastotieteilijä tai tutkija. Big datan tutkiminen on minulle harrastus. En tee hypoteeseja, jätän tilastollisen tutkimuksen alan ammattilaisille.

Ylioppilastutkintolautakunnan julkaisemissa tiedostoissa on paljon ylioppilasoppilaskohtaista tietoa: koulu, sukupuoli, opetuskieli, puoltoäänien lukumäärä ja eri oppiaineiden arvosanat. Kevään tiedostossa oli noin 25300 riviä ja 50 saraketta, syksyn tiedostossa noin 4400 riviä. Kun yhdistin tämän kevään ja syksyn tiedostot, niin taulukossa oli noin 30000 riviä ja 50 saraketta. Suurin osa tämän artikkelin laskennosta on suoritettu Python-koodilla. Jotkut kuvaajat ja taulukot sekä tarkistuslaskenta on tehty Google Sheets taulukkolaskentaohjelmalla. Erityisesti Google Sheetsin Saraketilastot työkalu on kätevä työkalu sarakkeiden jakaumien tutkimiseen.

Linkit edellisiin aiheen artikkeleihin ja tässä tarinassa käytettyyn lähdekoodiin löytyy artikkelin lopusta.

2023 ylioppilaat

Alla olevat kuvaajat ja taulukot on tuotettu yhdistämällä Ylioppilaslautakunnan julkaisemat tiedostot kevään ja syksyn 2023 ylioppilaista.

Tänä vuonna 2023 ylioppilaiksi valmistui 17342 (58,3 %) tyttöä ja 12416 (41,7 %) poikaa, yhteensä 29758. Vuoden 23 ylioppilaiden puoltoäänien summan keskiarvo oli tytöillä 24,1 ja pojilla keskiarvo 22,5. Tytöt kirjoittivat keskimäärin 5,56 ainetta, pojat 5,35 ainetta. Ylioppilasarvosanojen keskiarvo tytöillä oli 4,34 ja pojilla 4,21. Tytöt olivat keskiarvoissa laskettuna 0,13 arvosanaa ”parempia” kuin pojat.

Pojilla suurin puoltoäänien summa oli 78 ja tytöillä 64. Kyseinen poika opiskeli Parolan lukiossa ja tytön lukio oli Gymnasiet Lärkan.

2023 puoltoäänien jakauma

Tytöt kirjoittivat keskimäärin 5,6 ainetta, pojat 5,4 ainetta.

2023 aineiden lukumäärän jakauma

Alla olevassa kuvaajassa näkyy sellaiset kirjoitetut aineet, joissa osallistujia oli yli 1000 kokelasta.

2023 kirjoitetut aineet jakauma

eri aineiden arvosanajakaumia

Tein arvosanajakaumat niille aineille, joita oli kirjoitettu yli 3000 kertaa. Tällaisia aineita olivat: EA, A, N, M, BB, BI, PS, YH, FY, HI, TE, KE.

Pitkää englantia EA kirjoitti 15636 tyttöä ja 11713 poikaa.

2023 pitkä englanti arvosanajakauma

Äidinkieltä A kirjoitti 15505 tyttöä ja 11001 poikaa.

2023 äidinkieli arvosanajakauma

Lyhyttä matematiikkaa N 8349 tyttöä ja 5522 poikaa.

2023 lyhyt matikka arvosanajakauma

Pitkää matematiikkaa M kirjoitti 6760 tyttöä ja 6422 poikaa.

Keskipitkää ruotsia BB kirjoitti 6547 tyttöä ja 2309 poikaa.

2023 keskipitkä ruotsi arvosanajakauma

Biologiaa BI kirjoitti 6347 tyttöä ja 2279 poikaa.

2023 biologia arvosanajakauma

Psykologiaa PS kirjoitti 6954 tyttöä ja 1321 poikaa.

2023 psykologia arvosanajakauma

Yhteiskuntaoppia YH kirjoitti 3344 tyttöä ja 4325 poikaa. Yhteiskuntaoppi, fysiikka, historia olivat ainoat aineet yli kolmen tuhannen kirjoittajan aineista, joita pojat kirjoittivat enemmän kuin tytöt.

2023 yhteiskuntaoppi arvosanajakauma

Fysiikkaa FY kirjoitti 2832 tyttöä ja 4697 poikaa.

2023 fysiikka arvosanajakauma

Historiaa HI kirjoitti 3096 tyttöä ja 4323 poikaa.

2023 historia arvosanajakauma

Terveystietoa TE kirjoitti 4614 tyttöä ja 4323 poikaa.

2023 terveystieto arvosanajakauma

Historiaa HI kirjoitti 471 tyttöä ja 547 poikaa.

2023 historia arvosanajakauma

Kemiaa kirjoitti 3401 tyttöä ja 2648 poikaa.

2023 kemia arvosanajakauma

Maantiedettä 2009 tyttöä ja 1915 poikaa.

2023 maantiede arvosanajakauma

Evankelisluterilaista uskontoa kirjoitti 2367 tyttöä ja 791 poikaa.

2023 evlut uskonto arvosanajakauma

keskiarvot ja keskihajonnat aineittain taulukkona

Alla on taulukko eri aineiden kirjoittaneiden lukumääristä, keskiarvoista ja keskihajonnoista. NaN (Not a Number) on Python kielen tapa ilmaista, että kyseistä lukua ei voi laskea. Esimerkiksi, jos sarakkeella/rivillä ei ole lukuja, niin niistä ei voi laskea keskiarvoa tai keskihajontaa.

Taulukossa sukup tarkoittaa sukupuolta, yht puoltoäänien summaa, lkm kirjoitettujen aineiden lukumäärää ja muut oppiaineita. Oppiainekoodit löytyvät artikkelin lopusta.

aineplkmpkeskiarvopkeskihajontatlkmtkeskiarvotkeskihajonta
sukup124161,0000,000173422,0000,000
yht1241622,5317,6431734224,1168,068
A110013,6761,449155054,3741,387
O9113,4231,51511504,3921,338
Z0NaNNaN45,0000,816
I0NaNNaN0NaNNaN
W0NaNNaN0NaNNaN
Q0NaNNaN0NaNNaN
A54984,1851,3886824,4691,407
O584,8751,64273,8571,864
M64224,7461,42167604,4651,344
N55223,9731,31983493,8871,405
BI22794,3031,48963484,4811,460
FF7664,3851,46810914,4321,419
FY46974,5601,41928324,5581,294
HI43234,2041,46730964,5141,410
PS13213,6611,42669544,3731,410
UE7914,1721,51423674,3431,405
UO84,0002,070243,9171,640
ET894,1351,6663174,5331,358
GE19153,9591,41920094,3841,488
KE26484,7611,48334014,5951,441
TE20043,3311,28846144,1971,418
YH43254,0171,46033444,2571,439
BA2604,7581,4836704,5361,694
BB23094,1581,54065474,4181,524
CA4834,6171,2796445,2501,270
CB3354,5221,5853714,6631,455
EA118134,5481,472156364,1461,561
FA714,7461,4611474,9801,426
SA1185,1191,3912275,2951,359
PA255,5201,262635,4441,175
VA1626,0621,1782506,2281,068
EC4713,9341,44310184,0951,475
FC1194,6051,4104294,7721,406
SC4404,4661,4696784,8511,352
PC1304,8691,5675514,9421,318
VC1174,8121,6761834,7981,686
DC0NaNNaN43,7500,957
IC14,000NaN14,000NaN
QC0NaNNaN0NaNNaN
GC26,0001,41475,5711,902
TC165,8751,408385,1841,799
L1115,5451,440205,1001,553
L726,5000,70717,000NaN
lkm124165,3490,635173425,5550,738

keskiarvon erotus

Keskiarvojen erotustaulukossa on laskettu poikien ja tyttöjen keskiarvojen erotukset eri aineissa. Miinusmerkkiset erotukset tarkoittavat sitä, että poikien keskiarvo on suurempi kuin tyttöjen.

aineerotusaineerotus
yht1,59IC0,00
sukup1,00FY0,00
O0,97VC−0,01
TE0,87PA−0,08
PS0,71UO−0,08
A0,70N−0,09
CA0,63KE−0,17
L70,50BA−0,22
GE0,43M−0,28
ET0,40EA−0,40
SC0,39GC−0,43
HI0,31L1−0,45
A50,28TC−0,69
BB0,26O5−1,02
YH0,24
FA0,23
lkm0,21
BI0,18
SA0,18
UE0,17
FC0,17
VA0,17
EC0,16
CB0,14
PC0,07
FF0,05

t-testi

Laskin kaikista aineista Studentin t-testin keskiarvon erotuksista. Sen avulla voi selvittää missä aineissa keskiarvot poikkeavat toisistaan tilastollisesti erittäin merkitsevästi (p < 0.001).

Tänä vuonna tytöillä oli tilastollisesti erittäin merkitsevästi (p < 0.001) paremmat keskiarvot poikiin verrattuna seuraavissa aineissa : äidinkieli suomi A, terveystieto TE, psykologia PS, äidinkieli ruotsi O, historia HI, maantiede GE, suomi, pitkä oppimäärä CA, yhteiskuntaoppi YH, ruotsi keskipitkä oppimäärä BB, biologia BI ja saksa lyhyt oppimäärä SC.

Pojilla keskiarvo oli tilastollisesti erittäin merkitsevästi ”parempi” seuraavissa aineissa: kemia KE, pitkä matematiikka M, englanti pitkä oppimäärä EA, lyhyt matematiikka N ja Suomi toisena kielenä A5.

Alla oleva taulukko on laskettu Pythonin scipy.test-kirjaston ttest_ind funktiolla. Sarakkeella t-arvo on testisuure, jonka etumerkistä näkee, kumpi keskiarvo on suurempi. Mikäli sarakkeen p-arvo luku on pienempi kuin 0.001 on kyseessä tilastollisesti erittäin merkitsevä ero. P-arvot, joissa on merkintä 0.0000 ovat pienempiä kuin 0.001.

Järjestin t-testikoodin tuottaman taulukon p-arvon mukaiseen järjestykseen. Vasemman puoleisissa aineissa tytöt olivat tilastollisesti erittäin merkitsevästi ”parempia” kuin pojat, keskellä pojat olivat ”parempia”. Oikealla p-arvo oli suurempi kuin 0,001 eli ero ei ollut tilastollisesti erittäin merkitsevä.

ainet-arvop-arvoainet-arvop-arvoainet-arvop-arvo
A−39,33260,0000KE4,36830,0000UE−2,80130,0052
lkm−25,80330,0000M11,65940,0000ET−2,07000,0406
TE−24,38110,0000EA21,81600,0000EC−1,98900,0470
yht−17,23590,0000N3,68340,0002BA1,96530,0499
PS−16,66670,0000A5−3,45770,0006TC1,51070,1396
O−15,18540,0000VA−1,45120,1477
HI−9,16110,0000CB−1,22420,2213
GE−9,15820,0000FC−1,14100,2553
CA−8,24890,0000SA−1,12710,2609
YH−7,18120,0000FA−1,11250,2679
BB−7,01150,0000O51,11480,2866
BI−4,92220,0000L10,80140,4314
SC−4,41700,0000FF−0,68250,4950
PC−0,48960,6250
GC0,34800,7583
PA0,25820,7975
UO0,10350,9196
VC0,07120,9433
FY0,07000,9442

oppiainekoodit

koenimikoenimi
AÄidinkieli, suomiL1Latina, lyhyt oppimäärä
A5Suomi toisena kielenäL7Latina, pidempi oppimäärä
BARuotsi, pitkä oppimääräMMatematiikka, pitkä oppimäärä
BBRuotsi, keskipitkä oppimääräNMatematiikka, lyhyt oppimäärä
BIBiologiaOÄidinkieli, ruotsi
CASuomi, pitkä oppimääräO5Ruotsi toisena kielenä
CBSuomi, keskipitkä oppimääräPAEspanja, pitkä oppimäärä
DCPohjoissaame, lyhyt oppimääräPCEspanja, lyhyt oppimäärä
EAEnglanti, pitkä oppimääräPSPsykologia
ECEnglanti, lyhyt oppimääräQCKoltansaame, lyhyt oppimäärä
ETElämänkatsomustietoSASaksa, pitkä oppimäärä
FARanska, pitkä oppimääräSCSaksa, lyhyt oppimäärä
FCRanska, lyhyt oppimääräTCItalia, lyhyt oppimäärä
FFFilosofiaTETerveystieto
FYFysiikkaUEEvankelis-luterilainen uskonto
GCPortugali, lyhyt oppimääräUOOrtodoksi uskonto
GEMaantiedeVAVenäjä, pitkä oppimäärä
HIHistoriaVCVenäjä, lyhyt oppimäärä
IÄidinkieli, inarinsaameWÄidinkieli, koltansaame
ICInarinsaame, lyhyt oppimääräYHYhteiskuntaoppi
KEKemiaZÄidinkieli, pohjoissaame

Lähiaikoina julkaisen artikkelin, jossa piirtelen ainekohtaisia aikasarjoja poikien ja tyttöjen arvosanojen keskiarvoista.

lähteet

Python koodini Colabissa
https://colab.research.google.com/drive/1uTpRkCTUYY0X61UVmODoG-1Zwb-MMNn-?usp=sharing

Scipy t_test manuaali https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

YTL:n Oppilaitoskohtaisia tunnuslukuja-sivu ​​https://www.ylioppilastutkinto.fi/fi/tietopalvelut/tilastot/oppilaitoskohtaisia-tunnuslukuja

Kevään 23 yo-kokeen jakaumia, tytöt ovat edelleen erilaisia kuin pojat -artikkeli
https://mikkorahikka.blog/2023/11/20/2023-syksyn-ylioppilaiden-arvosanajakaumia-tytot-ja-pojat-ovat-erilaisia/

Kevään 23 yo-kokeen jakaumia, tytöt ovat edelleen erilaisia kuin pojat -artikkeli https://mikkorahikka.blog/2023/06/20/kevaan-23-yo-kokeen-jakaumia-tytot-ovat-edelleen-erilaisia-kuin-pojat/

Aiemmat artikkelini aiheeseen liittyen
https://mikkorahikka.blog/tag/ylioppilaskoe/

2 vastausta artikkeliin “2023 ylioppilaiden jakaumia – tytöt on tyttöjä ja pojat poikia”

  1. Moi! Loistava sivusto!Eräs tutun tuttu linkkasi sivustosi matikkakilpailusta, jossa oli erikseen poikien ja tyttöjen osio. Sitä seliteltiin ”Erillisellä tyttöjen kilpailulla on haluttu madaltaa kynnystä osallistua.” Kuitenkin pitkän matikan kirjoittaneita oli kuta kuinkin saman verran.Ja tästä tulemmekin aasinsillalla kommenttiini. Onko ne pitkän matikan käppyrät tarpeeksi korkeita vuoden 2023 osalta? Kovin ovat matalia osallistumismäärät, jos kuvaajaa oikein luen.

    Liked by 1 henkilö

    1. Kiitos palautteesta. Olet oikeassa, pitkän matikan kuvaaja oli syksyn 23 datasta. Korjasin tilalle oikean version.

      M

      Tykkää

Jätä kommentti

This site uses Akismet to reduce spam. Learn how your comment data is processed.