[edit. 14.3.23 lisäsin loppuun kommentin toimimattomuudesta vanhoissa Exceleissä]
Näihin aikoihin varmaankin aika monessa koulussa luodaan istumajärjestyslistoja ylioppilaskirjoituksia varten. Toisaalta opettajat saattavat tarvita opetuksessaan menetelmän, jolla aakkostettuun oppilaslistaan liitetään kullekin oppilaalle satunnainen järjestysluku. Niinpä tein sellaisen Excelillä.
Kauan sitten, kun vielä toimin opehommissa käytin tämän tyyppisen ongelman ratkaisuun GeoGebraa ja sen listakomentoja. Tai sitten sekoitin oppilaita taulukkolaskennan satunnaisluvuilla ja järjestä-valikkokomentojen avulla. Tämä versio perustuu Excelin SORTBY ja SEQUENCE -funktioihin. Aloitin tämän sovelluksen tekemisen Google Sheetsillä, mutta en saanut sitä toimimaan halutulla tavalla. Excelistä löysin sopivat funktiot ongelman ratkaisuun. Palannen joskus ongelman ratkaisuun Google Sheetsillä.
Taulukkoni ainoa kaava on solussa B2. Kaava on =SORTBY(SEQUENCE(COUNTA(A2:A200));RANDARRAY(COUNTA(A2:A200))) Suomeksi =LAJITTELE.ARVOJEN.PERUSTEELLA(JONO(LASKE.A(A2:A200));SATUNN.MATRIISI(LASKE.A(A2:A200)))
Tutkitaan miten kaavassa käytetyt funktiot toimivat.
SEQUENCE(n) funktio tuottaa lukujonon 1, 2, …, n alaspäin. Kun soluun A1 kirjoittaa SEQUENCE(n), niin alueelle A1:A10 ilmestyy lukujono 1, 2, …, 10.
SEQUENCE() on suomeksi JONO() Excelissä.
RANDARRAY(n) tuottaa n-kappaletta satunnaislukuja SEQUENCE-funktion tapaan. Kun soluun B1 kirjoitetaan =RANDARRAY(10), niin taulukkoon ilmestyy 10 satunnaislukua.
RANDARRAY on suomeksi SATUNN.MATRIISI.
SORTBY(alue1; alue2) järjestää solualueen alue1 solualueen alue2 mukaiseen järjestykseen.
=SORTBY(A1:A10;B1:B10)
SORTBY() on suomeksi LAJITTELE.ARVOJEN.PERUSTEELLA(), aika selkeä käännös :o)
COUNTA(alue) laskee solualueessa alue olevien ei tyhjien solujen lukumäärän. Kuvassa solussa D11 on kaava =COUNTA(D1:D10). Se tuottaa alueella olevien Excelin olioiden lukumäärän.
COUNTA() on suomeksi LASKE.A().
Näillä tiedoilla lopullisen kaavan tuottaminen onkin itsestäänselvää. Luodaan tyhjään taulukkoon 1 riville otsikot nimi ja paikka. Kirjoitetaan (tai sijoitetaan) nimi-otsikon alle nimiä, tässä versiossa niitä voi kirjoittaa sinne noin 200 kpl. Kun soluun B2 kirjoitetaan kaava =SORTBY(SEQUENCE(COUNTA(A2:A200));RANDARRAY(COUNTA(A2:A200))) niin sovellus on valmis.
Suomeksi kaava on =LAJITTELE.ARVOJEN.PERUSTEELLA(JONO(LASKE.A(A2:A200));SATUNN.MATRIISI(LASKE.A(A2:A200)))
Pitänee huomata, että nimissä ei saa olla tyhjiä soluja keskellä. Tällaisessa tilanteessa kaikki oppilaat eivät saa omaa arvoa.
Tämä sovellus toimii vain uusimmissa Excel-versioissa. Käsittääkseni SEQUENCE()-funktio toimii vain Excel for Microsoft 365 ja Excel 2021 -versioissa.
Yhdistin Ylioppilastutkintolautakunnan julkaisemat kevään ja syksyn 2022 ylioppilastulostiedostot. Näin sain tietoa kaikista vuoden 2022 ylioppilaista. Piirtelin jakaumakuvaajia aika monesta suositusta (N > 1000) aineesta, jakaumissa näkyy poikien ja tyttöjen tulokset erikseen.
Suurimman osan laskennasta ja kuvaajien piirrosta tein Google Sheetsin Pivot-toiminnalla, osan tilastomatikasta ja joitakin tarkistuksia GeoGebran Yhden muuttujan analyysillä ja Todennäköisyyslaskurilla. Tein myös tarkistuksen vuoksi taulukon eri aineiden keskiarvoista yms. Pythonilla.
pientä pohdiskelua
Minusta näistä kuvaajista ja taulukoista näkyy selvästi, että ylioppilaskokeessa tytöt menestyvät merkittävästi paremmin kuin pojat. Hyvin monessa aineessa tyttöjen yo-arvosanakeskiarvo on parempi kuin poikien. Esimerkiksi äidinkielessä keskiarvojen erotus on noin 0.7 arvosanaa, terveystiedossa 0,8, psykologiassa 0.6 arvosanaa parempi kuin pojilla. Sellaisia paljon kirjoitettuja aineita (N > 5000) joissa poikien tulos on tilastollisesti merkitsevästi (P arvo < 0.001) suurempi kuin tytöillä ovat: pitkä englanti sekä pitkä ja lyhyt matematiikka.
Joku voisi miettiä, onko tämä ongelma vai vaan hyvä juttu. Pitääkö nuorten muuttua tai koulun? Vai pitääkö sen muuttua mitä arvioidaan ja miten?
vuoden 2022 ylioppilaat
Yhteensä vuonna 2022 saimme 29378 ylioppilasta. Puoltoäänien keskiarvo oli 23.51, mediaani 22, keskihajonta 8.26. Kirjoitettujen aineiden lukumäärän keskiarvo oli 5.4.
Keväällä valmistuneita oli 24911 ja syksyllä 4467, yhteensä 29378.
Poikia (sininen) oli 11990 (40.8 %), puoltoäänien keskiarvo 22.4 ja keskihajonta 7.83. Kirjoitettujen aineiden lukumäärän keskiarvo oli pojilla 5.3.
Tyttöjä (punainen) oli 17388 (59,2%), puoltoäänien keskiarvo 24.3, keskihajonta 8,45. Kirjoitettujen aineiden lukumäärän keskiarvo oli tytöillä 5.5.
Seuraavassa taulukossa näkyy eri aineiden kirjoittajien lukumäärät suuruusjärjestyksessä. Enpä ollut ennen tajunnut, että pitkää englantia kirjoitetaan enemmän kuin äidinkieltä. Kaikkea sitä oppii, kun laskee. Taulukon koodien tulkinta löytyy tämän artikkelin lopusta.
aine
kirjoittajia
aine
kirjoittajia
aine
kirjoittajia
EA
27212
FF
1675
PA
63
A
26047
SC
1219
UO
26
N
13276
A5
1204
L1
21
M
13085
CA
1162
O5
15
BB
9378
EC
1134
Z
12
BI
8897
BA
878
GC
9
PS
7801
PC
641
L7
3
FY
7572
CB
617
DC
2
YH
7225
FC
566
I
1
HI
6523
VA
428
W
0
TE
6325
SA
405
Q
0
KE
6178
VC
335
IC
0
GE
3627
ET
296
QC
0
UE
2823
FA
247
O
2061
TC
77
Poikien ja tyttöjen lukumäärät, keskiarvot ja keskihajonnat aineittain
Rivi yht on puoltoäänien määrä ja lkm kirjoitettujen aineiden lukumäärä. NaN tarkoittaa, että keskiarvoa tai keskihajontaa ei voi laskea, koska kirjoittajia on liian vähän.
Alla edellisen taulukon tyttöjen keskiarvon ja poikien keskiarvon erotus.
äidinkieli
Kaikissa kuvaajissa tästä eteenpäin sininen viittaa poikiin/miehiin ja punainen tyttöihin/naisiin. Arvosanoissa 0 vastaa arvosanaa improbatur, 2 arvosanaa approbatur, … ja 7 arvosanaa laudatur.
Äidinkieli, suomi – A
Katsotaan kolmea ylintä arvosanaa M, E ja L. Voisi ajatella, että noilla arvosanoilla on suhteellisen helppo tuottaa yliopistoissa vaadittavia kirjoituksia. Tytöillä näitä arvosanoja on 7080 ja pojilla 2755 eli tyttöjen määrä on yli kaksi ja puoli kertainen verrattuna poikien lukumäärään. Saman tyyppinen ero näkyy myös S2:n ja Äidinkieli ruotsin arvosanoissa.
Suomi toisena kielenä, S2 – A5
Äidinkieli, ruotsi – O
matematiikka
Matikoissa poikien keskiarvot ovat pikkaisen parempia kuin tytöillä.
Pitkä matematiikka – M
Lyhyt matematiikka – N
reaaliaineet
Fysiikka – FY
Kemia – KE
Biologia – BI
Maantiede – GE
Psykologia – PS
Historia – HI
Yhteiskuntaoppi – YH
Evankelis-luterilainen uskonto – UE
Terveystieto – TE
Tyttöjen keskiarvo on 0.83 suurempi kuin poikien. Tämä on suurin näissä kuvaajissa.
Filosofia – FF
Kielet
Ruotsi pitkä – BA
Ruotsi keskipitkä – BB
Englanti pitkä – EA
Pitkässä englannissa poikien keskiarvo on 0.4 suurempi kuin tyttöjen, tämä on ainoa aine, jossa poikien keskiarvo on reilusti suurempi kuin tyttöjen.
Julkaisin kesäkuussa tarinan aiheesta ”Kevään 22 yo-kirjoitusten tuloksien korrelaatiomatriisi Pythonilla”. Tuotin syksyn yo-tuloksista samat matriisit. Edelleenkin vaikuttaa siltä, että ei-matemaattiset reaaliaineet ovat kovasti esillä, kun pohditaan, minkä aineen tulos korreloi parhaiten ylioppilaskokeen kokonaismenestymisen kanssa.
Linkit tässä tarinassa käytettyihin tiedostoihin ja koodiin löytyvät tarinan lopusta.
Korrelaatiomatriisi
Syksyllä 22 ylioppilaita valmistui 4466 kappaletta, onnittelut heille. Käytin matriisin tuotossa samaa koodia, kuin kesäkuun tarinassani. Loin taulukon, jossa oli vain oppilaiden puoltoäänien summa (yht) ja eri kirjoituksista saadut arvosanat (”a” = 2, ”b” = 3, …, ”l” = 7) . Poistin taulukosta sellaiset aineet, joita oli kirjoitettu alle 100 kertaa. Loin korrelaatiomatriisin siten, että mukaan laskettiin vain ne aineparit, joissa vähintään 20 oppilasta oli kirjoittanut kyseiset aineet. Lisäsin oikeaan reunaan kaksi saraketta. Sarakkeelle ”∑r2” laskin korrelaatiokertoimien neliöiden eli selitysasteiden summan ja sarakkeelle ”yli .6” laskin niiden korrelaatioden lukumäärän, jotka olivat suurempia kuin 0.6.
Mikäli haluat tuottaa itsellesi erilaisia tuotoksia, niin valmis koodini kommentoituna löytyy Colabista, linkki on Lähteet-luvussa.
pari kommenttia
Parhaiten ylioppilaan puoltoäänien määrää (yht) ennustaa tulkintani mukaan menestyminen evankelis-luterilaisen uskonnon yo-kokeessa (UE, r = 0.80). Biologialla (BI), filosofialla (FF) ja psykologialla (PS) korrelaatiokerroin on lähes sama 0,79. Kevään 22 ylioppilailla korkeimmat korrelaatiot puoltoäänien summan kanssa olivat: historia, evankelis-luterilainen uskonto, maantiede (GE) ja keskipitkä ruotsi (BB); r = 0.75.
Korkeimmat selitysasteiden summat syksyllä: biologia ∑r2 = 8.5, fysiikka (FY), historia, psykologia ja keskipitkä ruotsi ∑r2 = 7.1. Kevään ylioppilailla suurimat selitysasteiden summat olivat: biologia (Σr2 = 9), psykologia (Σr2 = 8.9) sekä historia ja keskipitkä ruotsi (Σr2 = 8.5).
Suurimmat aineiden väliset korrelaatiot olivat: yhteiskuntaoppi/biologia r = 0.82, keskipitkä ruotsi/lyhyt englanti (EC) r = 0.81 ja fysiikka/pitkä matikka (M) r = 0.78. Keväällä 22 suurimmat aineiden väliset korrelaatiot: elämänkatsomustieto/historia r = 0.82, elämänkatsomustieto/filosofia ja filosofia/uskonto r = 0.80.
Kesällä jotkut henkilöt olivat sitä mieltä, että kirjoitettujen aineiden lukumäärää olisi mielenkiintoista tutkia. Tein myös sitä varten oman taulukon, johon aineiden oikealle puolelle lisäsin sarakkeen lkm, johon laskin kirjoitettujen aineiden lukumäärän. Havaitaan, että lkm-muuttujan ja kokonaispistemäärän välinen korrelaatio on suuri 0.73, mutta lkm ei juurikaan korreloi minkään yksittäisen aineen kanssa.