Istumapaikkanumeroiden arpominen Excelillä

[edit. 14.3.23 lisäsin loppuun kommentin toimimattomuudesta vanhoissa Exceleissä]

Näihin aikoihin varmaankin aika monessa koulussa luodaan istumajärjestyslistoja ylioppilaskirjoituksia varten. Toisaalta opettajat saattavat tarvita opetuksessaan menetelmän, jolla aakkostettuun oppilaslistaan liitetään kullekin oppilaalle satunnainen järjestysluku. Niinpä tein sellaisen Excelillä.

Kauan sitten, kun vielä toimin opehommissa käytin tämän tyyppisen ongelman ratkaisuun GeoGebraa ja sen listakomentoja. Tai sitten sekoitin oppilaita taulukkolaskennan satunnaisluvuilla ja järjestä-valikkokomentojen avulla. Tämä versio perustuu Excelin SORTBY ja SEQUENCE -funktioihin. Aloitin tämän sovelluksen tekemisen Google Sheetsillä, mutta en saanut sitä toimimaan halutulla tavalla. Excelistä löysin sopivat funktiot ongelman ratkaisuun. Palannen joskus ongelman ratkaisuun Google Sheetsillä.

Taulukkoni ainoa kaava on solussa B2. Kaava on =SORTBY(SEQUENCE(COUNTA(A2:A200));RANDARRAY(COUNTA(A2:A200)))
Suomeksi
=LAJITTELE.ARVOJEN.PERUSTEELLA(JONO(LASKE.A(A2:A200));SATUNN.MATRIISI(LASKE.A(A2:A200)))

Tutkitaan miten kaavassa käytetyt funktiot toimivat.

SEQUENCE(n) funktio tuottaa lukujonon 1, 2, …, n alaspäin. Kun soluun A1 kirjoittaa SEQUENCE(n), niin alueelle A1:A10 ilmestyy lukujono 1, 2, …, 10. 

SEQUENCE() on suomeksi JONO() Excelissä.

RANDARRAY(n) tuottaa n-kappaletta satunnaislukuja SEQUENCE-funktion tapaan. Kun soluun B1 kirjoitetaan =RANDARRAY(10), niin taulukkoon ilmestyy 10 satunnaislukua.

RANDARRAY on suomeksi SATUNN.MATRIISI.

SORTBY(alue1; alue2) järjestää solualueen alue1 solualueen alue2 mukaiseen järjestykseen. 

=SORTBY(A1:A10;B1:B10)

SORTBY() on suomeksi LAJITTELE.ARVOJEN.PERUSTEELLA(), aika selkeä käännös :o)

COUNTA(alue) laskee solualueessa alue olevien ei tyhjien solujen lukumäärän. Kuvassa solussa D11 on kaava =COUNTA(D1:D10). Se tuottaa alueella olevien Excelin olioiden lukumäärän.

COUNTA() on suomeksi LASKE.A().

Näillä tiedoilla lopullisen kaavan tuottaminen onkin itsestäänselvää. Luodaan tyhjään taulukkoon 1 riville otsikot nimi ja paikka. Kirjoitetaan (tai sijoitetaan)  nimi-otsikon alle nimiä, tässä versiossa niitä voi kirjoittaa sinne noin 200 kpl. Kun soluun B2 kirjoitetaan kaava =SORTBY(SEQUENCE(COUNTA(A2:A200));RANDARRAY(COUNTA(A2:A200)))
niin sovellus on valmis.

Suomeksi kaava on
=LAJITTELE.ARVOJEN.PERUSTEELLA(JONO(LASKE.A(A2:A200));SATUNN.MATRIISI(LASKE.A(A2:A200)))

Pitänee huomata, että nimissä ei saa olla tyhjiä soluja keskellä. Tällaisessa tilanteessa kaikki oppilaat eivät saa omaa arvoa.

Tämä sovellus toimii vain uusimmissa Excel-versioissa. Käsittääkseni SEQUENCE()-funktio toimii vain Excel for Microsoft 365 ja Excel 2021 -versioissa.

Excel-tiedosto, lataa täältä.
https://mikonfysiikka.files.wordpress.com/2023/03/yo-istumapaikka.xlsx


Advertisement

Vuoden 2022 ylioppilaiden arvosanajakaumia – tytöt ovat erilaisia kuin pojat

Yhdistin Ylioppilastutkintolautakunnan julkaisemat kevään ja syksyn 2022 ylioppilastulostiedostot. Näin sain tietoa kaikista vuoden 2022 ylioppilaista. Piirtelin jakaumakuvaajia aika monesta suositusta (N > 1000) aineesta, jakaumissa näkyy poikien ja tyttöjen tulokset erikseen.

Suurimman osan laskennasta ja kuvaajien piirrosta tein Google Sheetsin Pivot-toiminnalla, osan tilastomatikasta ja joitakin tarkistuksia GeoGebran Yhden muuttujan analyysillä ja Todennäköisyyslaskurilla. Tein myös tarkistuksen vuoksi taulukon eri aineiden keskiarvoista yms. Pythonilla.

pientä pohdiskelua

Minusta näistä kuvaajista ja taulukoista näkyy selvästi, että ylioppilaskokeessa tytöt menestyvät merkittävästi paremmin kuin pojat. Hyvin monessa  aineessa tyttöjen yo-arvosanakeskiarvo on parempi kuin poikien. Esimerkiksi äidinkielessä keskiarvojen erotus on noin 0.7 arvosanaa, terveystiedossa 0,8, psykologiassa 0.6 arvosanaa parempi kuin pojilla. Sellaisia paljon kirjoitettuja aineita (N > 5000) joissa poikien tulos on tilastollisesti merkitsevästi (P arvo < 0.001)  suurempi kuin tytöillä ovat:  pitkä englanti sekä pitkä ja lyhyt matematiikka.

Joku voisi miettiä, onko tämä ongelma vai vaan hyvä juttu. Pitääkö nuorten muuttua tai koulun? Vai pitääkö sen muuttua mitä arvioidaan ja miten?

vuoden 2022 ylioppilaat

Yhteensä vuonna 2022 saimme 29378 ylioppilasta. Puoltoäänien keskiarvo oli 23.51, mediaani 22, keskihajonta 8.26. Kirjoitettujen aineiden lukumäärän keskiarvo oli 5.4.

Keväällä valmistuneita oli 24911 ja syksyllä 4467, yhteensä 29378.

Poikia (sininen) oli 11990 (40.8 %), puoltoäänien keskiarvo 22.4 ja keskihajonta 7.83. Kirjoitettujen aineiden lukumäärän keskiarvo oli pojilla 5.3. 

Tyttöjä (punainen) oli 17388 (59,2%), puoltoäänien keskiarvo 24.3, keskihajonta 8,45. Kirjoitettujen aineiden lukumäärän keskiarvo oli tytöillä 5.5. 

Seuraavassa taulukossa näkyy eri aineiden kirjoittajien lukumäärät suuruusjärjestyksessä. Enpä ollut ennen tajunnut, että pitkää englantia kirjoitetaan enemmän kuin äidinkieltä. Kaikkea sitä oppii, kun laskee. Taulukon koodien tulkinta  löytyy tämän artikkelin lopusta.

ainekirjoittajiaainekirjoittajiaainekirjoittajia
EA27212FF1675PA63
A26047SC1219UO26
N13276A51204L121
M13085CA1162O515
BB9378EC1134Z12
BI8897BA878GC9
PS7801PC641L73
FY7572CB617DC2
YH7225FC566I1
HI6523VA428W0
TE6325SA405Q0
KE6178VC335IC0
GE3627ET296QC0
UE2823FA247
O2061TC77

Poikien ja tyttöjen lukumäärät, keskiarvot ja keskihajonnat aineittain

Rivi yht on puoltoäänien määrä ja lkm kirjoitettujen aineiden lukumäärä. NaN tarkoittaa, että keskiarvoa tai keskihajontaa ei voi laskea, koska kirjoittajia on liian vähän. 

Alla edellisen taulukon tyttöjen keskiarvon ja poikien keskiarvon erotus.

äidinkieli

Kaikissa kuvaajissa tästä eteenpäin sininen viittaa poikiin/miehiin ja punainen tyttöihin/naisiin. Arvosanoissa 0 vastaa arvosanaa improbatur, 2 arvosanaa approbatur, … ja 7 arvosanaa laudatur.

Äidinkieli, suomi – A

Katsotaan kolmea ylintä arvosanaa M, E ja L. Voisi ajatella, että noilla arvosanoilla on suhteellisen helppo tuottaa yliopistoissa vaadittavia kirjoituksia. Tytöillä näitä arvosanoja on 7080 ja pojilla 2755 eli tyttöjen määrä on yli kaksi ja puoli kertainen verrattuna poikien lukumäärään. Saman tyyppinen ero näkyy myös S2:n ja Äidinkieli ruotsin arvosanoissa.

Suomi toisena kielenä, S2 – A5

Äidinkieli, ruotsi – O


matematiikka

Matikoissa poikien keskiarvot ovat pikkaisen parempia kuin tytöillä.

Pitkä matematiikka – M

Lyhyt matematiikka – N


reaaliaineet

Fysiikka – FY

Kemia – KE

Biologia – BI

Maantiede – GE

Psykologia – PS

Historia – HI

Yhteiskuntaoppi – YH

Evankelis-luterilainen uskonto – UE

Terveystieto – TE

Tyttöjen keskiarvo on 0.83 suurempi kuin poikien. Tämä on suurin näissä kuvaajissa.

Filosofia – FF


Kielet

Ruotsi pitkä – BA

Ruotsi keskipitkä – BB

Englanti pitkä – EA

Pitkässä englannissa poikien keskiarvo on 0.4 suurempi kuin tyttöjen, tämä on ainoa aine, jossa poikien keskiarvo on reilusti suurempi kuin tyttöjen.

Englanti lyhyt – EC

Saksa lyhyt oppimäärä – SC

Suomi pitkä oppimäärä – CA


YO-koekoodit selkokielisenä

Tämä taulukko löytyy sivulta https://www.ylioppilastutkinto.fi/ext/data/FT2016KD0010.csv

koeniminamn
AÄidinkieli, suomiModersmålet, finska
A5Suomi toisena kielenäFinska som andraspråk
BARuotsi, pitkä oppimääräSvenska, lång lärokurs
BBRuotsi, keskipitkä oppimääräSvenska, medellång lärokurs
BIBiologiaBiologi
CASuomi, pitkä oppimääräFinska, lång lärokurs
CBSuomi, keskipitkä oppimääräFinska, medellång lärokurs
DCPohjoissaame, lyhyt oppimääräNordsamiska, kort lärokurs
EAEnglanti, pitkä oppimääräEngelska, lång lärokurs
ECEnglanti, lyhyt oppimääräEngelska, kort lärokurs
ETElämänkatsomustietoLivsåskådningskunskap
FARanska, pitkä oppimääräFranska, lång lärokurs
FCRanska, lyhyt oppimääräFranska, kort lärokurs
FFFilosofiaFilosofi
FYFysiikkaFysik
GCPortugali, lyhyt oppimääräPortugisiska, kort lärokurs
GEMaantiedeGeografi
HIHistoriaHistoria
IÄidinkieli, inarinsaameModersmålet, enaresamiska
ICInarinsaame, lyhyt oppimääräEnaresamiska, kort lärokurs
KEKemiaKemi
L1Latina, lyhyt oppimääräLatin, kort lärokurs
L7Latina, pidempi oppimääräLatin, längre lärokurs
MMatematiikka, pitkä oppimääräMatematik, lång lärokurs
NMatematiikka, lyhyt oppimääräMatematik, kort lärokurs
OÄidinkieli, ruotsiModersmålet, svenska
O5Ruotsi toisena kielenäSvenska som andraspråk
PAEspanja, pitkä oppimääräSpanska, lång lärokurs
PCEspanja, lyhyt oppimääräSpanska, kort lärokurs
PSPsykologiaPsykologi
Q– ei käytössä –– ej i bruk –
QCKoltansaame, lyhyt oppimääräSkoltsamiska, kort lärokurs
SASaksa, pitkä oppimääräTyska, lång lärokurs
SCSaksa, lyhyt oppimääräTyska, kort lärokurs
TCItalia, lyhyt oppimääräItalienska, kort lärokurs
TETerveystietoHälsokunskap
UEEvankelis-luterilainen uskontoEvangelisk-luthersk religion
UOOrtodoksi uskontoOrtodox religion
VAVenäjä, pitkä oppimääräRyska, lång lärokurs
VCVenäjä, lyhyt oppimääräRyska, kort lärokurs
WÄidinkieli, koltansaameModersmålet, skoltsamiska
YHYhteiskuntaoppiSamhällslära
ZÄidinkieli, pohjoissaameModersmålet, nordsamiska

Pythonkoodi Colabissa …

…löytyy täältä https://colab.research.google.com/drive/1X4f9JzbctA6a-32jhJZFqHb2AIYIFTFS?usp=sharing

Muita aiheeseen liittyviä artikkeleita https://mikkorahikka.blog/tag/ylioppilaskoe/

Syksyn 2022 ylioppilastutkinnon tuloksien korrelaatiomatriisi 

Julkaisin kesäkuussa tarinan aiheesta ”Kevään 22 yo-kirjoitusten tuloksien korrelaatiomatriisi Pythonilla”. Tuotin syksyn yo-tuloksista samat matriisit. Edelleenkin vaikuttaa siltä, että ei-matemaattiset reaaliaineet ovat kovasti esillä, kun pohditaan, minkä aineen tulos korreloi parhaiten ylioppilaskokeen kokonaismenestymisen kanssa.

Linkit tässä tarinassa käytettyihin tiedostoihin ja koodiin löytyvät tarinan lopusta.

Korrelaatiomatriisi

Syksyllä 22 ylioppilaita valmistui 4466 kappaletta, onnittelut heille. Käytin matriisin tuotossa samaa koodia, kuin kesäkuun tarinassani. Loin taulukon, jossa oli vain oppilaiden puoltoäänien summa (yht) ja eri kirjoituksista saadut arvosanat (”a” = 2, ”b” = 3, …, ”l” = 7) . Poistin taulukosta sellaiset aineet, joita oli kirjoitettu alle 100 kertaa. Loin korrelaatiomatriisin siten, että mukaan laskettiin vain ne aineparit, joissa vähintään 20 oppilasta oli kirjoittanut kyseiset aineet. Lisäsin oikeaan reunaan kaksi saraketta. Sarakkeelle ”∑r2” laskin korrelaatiokertoimien neliöiden eli selitysasteiden summan ja sarakkeelle ”yli .6” laskin niiden korrelaatioden lukumäärän, jotka olivat suurempia kuin 0.6.

Mikäli haluat tuottaa itsellesi erilaisia tuotoksia, niin valmis koodini kommentoituna löytyy Colabista, linkki on Lähteet-luvussa.

pari kommenttia

Parhaiten ylioppilaan puoltoäänien määrää (yht) ennustaa tulkintani mukaan menestyminen evankelis-luterilaisen uskonnon yo-kokeessa (UE, r = 0.80). Biologialla (BI), filosofialla (FF) ja psykologialla (PS) korrelaatiokerroin on lähes sama 0,79. Kevään 22 ylioppilailla korkeimmat korrelaatiot puoltoäänien summan kanssa olivat: historia, evankelis-luterilainen uskonto, maantiede (GE) ja keskipitkä ruotsi (BB); r = 0.75.

Korkeimmat selitysasteiden summat syksyllä: biologia ∑r= 8.5, fysiikka (FY), historia, psykologia ja keskipitkä ruotsi ∑r= 7.1. Kevään ylioppilailla suurimat selitysasteiden summat olivat: biologia (Σr2 = 9), psykologia (Σr2 = 8.9) sekä historia ja keskipitkä ruotsi (Σr2 = 8.5).

Suurimmat aineiden väliset korrelaatiot olivat: yhteiskuntaoppi/biologia r = 0.82, keskipitkä ruotsi/lyhyt englanti (EC) r = 0.81 ja fysiikka/pitkä matikka (M) r = 0.78. Keväällä 22 suurimmat aineiden väliset korrelaatiot: elämänkatsomustieto/historia r = 0.82, elämänkatsomustieto/filosofia ja filosofia/uskonto r = 0.80.

Kesällä jotkut henkilöt olivat sitä mieltä, että kirjoitettujen aineiden lukumäärää olisi mielenkiintoista tutkia. Tein myös sitä varten oman taulukon, johon aineiden oikealle puolelle lisäsin sarakkeen lkm, johon laskin kirjoitettujen aineiden lukumäärän. Havaitaan, että lkm-muuttujan ja kokonaispistemäärän välinen korrelaatio on suuri 0.73, mutta lkm ei juurikaan korreloi minkään yksittäisen aineen kanssa.

Lähteet

Tähän tarinaan liittyvä koodi Google Colabissa

Aiemmat aiheeseen liittyvät artikkelit blogissani

Ylioppilaslautakunnan tiedostot

Tähän käytetty tiedosto löytyy ytl:n sivulta  https://www.ylioppilastutkinto.fi/tietopalvelut/tilastot/koulukohtaisia-tunnuslukuja
sieltä löytyy linkki myös oppiainekoodeihin ja miten tiedostojen nimet on koodattu. Itse tiedosto on osoitteessa https://www.ylioppilastutkinto.fi/ext/data/FT2022SD3001.csv