Seitsemän veljestä on Poisson-jakautunut?

Tein Pythonilla ohjelman, jonka avulla laskin Seitsemän veljeksen sanojen lukumääriä ynnä muuta. Palaan itse ohjelmaan tulevissa tarinoissani. Tässä selvittelen mitä mielenkiintoista löysin, kun leikin ohjelmallani.

pisimmät sanat

Oheisessa taulukossa on muutamia pisimpiä sanoja.

#lkmsanapituus
11maamittarikustannuksilla24
21rangaistus-parakraaffia23
21jäähyväis-syleilyksensä23
41henkivartija-pataljooni23
51kanaljavikkelyyksiämme22
61noitakurkistimellansa21
72saapasnahka-tornissa20
72huoneenhallituksessa20
71ymmärtämättömyytensä20
71vieraanvaraisuudesta20
71uuttatestamenttiansa20
71sovintoa-saattavalla20
71saapasnahka-tornista20
71purppura-hameessansa20
71pieksiäis-ryöppäystä20
71nokipoika-vekkulilta20
71maahanpaniaisiksensa20
71lähetyskappaleitansa20

Pisin sana ”maamittarikustannuksilla” on kirjan ensimmäisessä luvussa. Aapo pohdiskelee Jukolan talon jakoa veljilleen. 

… Mutta minä tiedän, ettei yksikään meistä kernaasti siirry Jukolan armaitten alojen vaiheilta pois, ja eihän pakoita siihen tilamme ahtaus, vaan onpa väljyyttä seitsemälle veljelle näillä mantereilla. Mutta hän, joka aikaa voittain tuntisi halun perustamaan itsellensä oman asunnon ja perheen eikä kuitenkaan mieli tässä lain voimalla ja maamittarikustannuksilla käydä pirstoilemaan taloa, eikö taitaisi hän tyytyä seuraavaan etuun?

sanojen pituuksien jakauma

Sanojen pituusjakauma ja tilastotietoa GeoGebralla laskettuna.

seitsemän veljestä, sanojen pituusjakauma

Kun laskin sanojen pituuksien lukumäärät, yllätyin, että jakauma näytti lähes Poisson-jakaumalta. Toki kaksikirjaimisten sanojen määrä on suuri, johtuen kielemme sanoista ja, me he, jne. Näitä on usein tekstissä.

seitsemän veljestä, sanojen suhteellinenpituusjakauma ja poisson-jakauma

Kuvassa punaiset palkit edustavat Seitsemän veljeksen jakaumaa ja mustat palkit Poisson-jakaumaa keskiarvolla 6,4046.

Pakkohan se oli sitten lukea myös Nummisuutarit. Sen pisin sana on ”ilkivaltasuuksillasi”

nummisuutarit, sanojen pituusjakauma

Jakaumat ovat kovasti saman näköisiä. Johtuuko tämä kirjailijasta vai jostain yleisemmästä suomen kielen ominaisuudesta? Tätä pitää tutkiskella lisää erilaisilla materiaaleilla.

seitsemän veljeksen ja nummisuutarien suhteelliset sanojen pituusjakaumat

luettavaa aiheesta

En löytänyt nopealla etsimisellä suomen kielistä tutkimusta aiheesta. Ulkomailla asiaa on tutkittu pidempääkin.

Peter Grzybek. History and Methodology of Word Length Studies. http://peter-grzybek.eu/science/publications/2006/grzybek_2006_history_methodology_word_length.pdf

LordRothschild. The distribution of English dictionary word lengths. https://www.sciencedirect.com/science/article/abs/pii/0378375886901692

Korrelaatiomatriisi LibreOfficella YTL:n datasta

[edit 20.1.20 Lisäsin yo-koematriisikuvan oheen taulukon aineiden lyhennyksistä luettavuuden parantamiseksi.]

GeoGebran Kahden muuttujan analyysi -työkalulla on helppoa tuottaa kahden muuttujan tilastosta korrelaatiokaavio, samalla saa useiden tilastollisten tunnuslukujen arvot, kuten esimerkiksi korrelaatiokertoimen. Valitettavasti GeoGebrassa ei ole mahdollisuutta tuottaa korrelaatiomatriisia. Se kannattaakin tuottaa Abittijärjestelmässä LibreOfficen Calcilla. Tietysti saman voi tehdä myös Excelillä.

pieni esimerkki

Kuvan LibreOffice Calcin taulukossa on pienen opetusryhmän oppilaiden pituus senttimetreinä, kengännumero ja syntymäkuukausi. Tiedosto löytyi koneeni uumenista, joten se voi olla myös jonkin oppikirjan dataa tai sitten ihan oikea kysely omilta oppilailtani. 

Valitaan alue A1:C12, toki otsikot voi jättää poiskin valinnasta. Valitaan Data-valikosta Tilastotiedot -> Korrelaatio… Avautuvaan ikkunaan laitetaan tulosmatriisin vasen ylänurkan paikka ja valitaan OK.

Alkuperäisen taulukon sarakkeet eivät tulostu korrelaatiomatriisiin.

Valitaan alkuperäiset otsikot alueelta A1:C1, kopioidaan ja sijoitetaan ne soluun F1. LibreOffice varoittaa sijoituksesta, ei välitetä siitä. Pystyotsikot saadaan paikoilleen klikkaamalla soluun E2 hiiren oikealla painikkeella. Avautuvassa valikossa valitaan Liitä määräten -> Liitä Määräten. Avautuvassa ikkunassa laitetaan ruksi kohtaan Transponoi.

iso esimerkki ytl:n datasta

Kirjoitin jokin aika sitten Pivot taulukko-komennosta ”Ylioppilasdatan louhimista Pivot-taulukoilla” ja ”Pivot ja Excel YTL:n datasta”. Näissä käytin csv-tiedostoa, jossa on jokaisen keväällä 19 kirjoittaneiden opiskelijoiden ylioppilaskoetulokset. Käytän tässä tässä samaa tiedostoa https://www.ylioppilastutkinto.fi/ext/data/FT2019KD3001.csv

Oheinen linkki lataa tiedoston tietokoneen Lataukset-kansioon. Kun tiedosto avataan LibreOfficella, niin isohkon tietomäärän saa näkyville. Tiedostossa on noin 26000 riviä ja sarakkeita on 51 kappaletta. Tiedoston otsakerivin koodit selkokielisenä löytyvät sivulta https://www.ylioppilastutkinto.fi/ext/data/FT2016KD0010.csv.

Poistin kirjoitetuista aineista sellaiset, joissa oli vähän kirjoittajia < 100, näin sain korrelaatiomatriisin hieman pienemmäksi. Edellä esitetyllä tavalla loin korrelaatiomatriisin eri kirjoitettujen aineiden välille. Väritin ne solut, joissa korrelaatiokerroin r > 0,8 (voimakas) punaiseksi, 0,6 < r ≤ 0,8 (huomattava) keltaiseksi ja r < -0,6 vihreäksi. 

Minua itseäni ihmetyttää eniten se, että äidinkielellä ei ole tuon suurempia korrelaatiokertoimia muiden aineiden kanssa. Sitä vastoin biologialla ja maantieteellä on huomattava tai kohtalainen korrelaatio yhdeksän kirjoitettavan aineen kanssa. Toisaalta pitkällä matematiikalla kohtalainen korrelaatio on vain fysiikan ja kemian kanssa.

Alla kirjoitettavien aineiden tulkinta.

Jätän lukijan ihmettelemään yo-korrelaatiomatriisia ja tekemään syistä ja seurauksista omia tulkintojaan.

Keskiarvo ja keskihajonta-komennot GeoGebrassa

Edellistä tarinaa kirjoittaessani huomasin/muistin, että keskiarvo- ja keskihajontakomentoja on useampia. Osa uusista komennoista liittyy siihen, että mobiililaitteita varten tarvittiin lyhyempiä komentoja. Käytän tässä suomenkielistä käyttöliittymää ja kirjoitan komennot CAS:iin.

[17.1.20. Lisäsin keskihajonnan.]

keskiarvo

Tutkitaan eri komentoja luvut listan avulla.

luvut:= {1,2,3,4,5}
->luvut:={1, 2, 3, 4, 5}

Alkuperäinen englanninkielinen keskiarvo-komento on Mean. Niinpä CAS:iin kirjoitettuna

Mean(luvut) 

tuottaa

Keskiarvo(luvut)
-> 3

Joskus noin vuosi sitten mukaan tuli mobiililaskin Scientific Calculator. Sitä varten tarvittiin lyhyempiä nimiä komennoille. Niinpä mean kääntyi keskar-komennoksi. Tuo keskar ei välttämättä ole kaikkein kaunein vaihtoehto, mutta ainakin tällä hetkellä se on keskiarvon lyhenne GeoGebrassa. Toki myös Keskiarvo-komento toimii.

keskar(luvut)
-> 3

muita keskiarvoja

GeometrinenKeskiarvo(GeometricMean)-komento laskee syötelistan tulon n:nen juuren, missä n on lukujen lukumäärä. Katso Wikipedia. Kaikki lukijat varmaan muistavatkin, että kahden luvun geometrinen keskiarvo eli keskiverto on se luku, joka on vastaa sitä neliön sivun pituutta, joka tuottaa alkuperäisten lukujen tuottaman suorakaiteen pinta-alaa vastaavan neliön alan (meniköhäntuoihanoiken?

NeliöllinenKeskiarvo(RootMeanSquare)-komento laskee syötelistan lukujen neliöiden keskiarvon neliöjuuren. Katso Wikipedia.

HarmoninenKeskiarvo(HarmonicMean)-komento laskee lukujen käänteislukujen keskiarvon käänteisluvun. Katso Wikipedia.

Muita keskiarvomentoja varten luodaan pistelista:

pisteet:=({(1,-1), (2,-2), (3,-3)})
-> pisteet:=({(1,-1), (2,-2), (3,-3)})

KeskiarvoX ja KeskiarvoY laskevat pistelistan x-koordinaattien ja y-koordinaattien keskiarvot.

keskihajonta

Käytän tässä seuraavia määritelmiä keskihajonnalle ja otoskeskihajonnalle.

Kuvankaappaus MAOL/Otavan taulukkokirjasta, tällainen näkyy yo-kokeessa.

Alkuperäinen keskihajonta-komento oli SD. Niinpä jos kirjoittaa CAS:iin
SD(luvut) tai SampleSD(luvut)

GeoGebra tuottaa

Mobiili Scientific calculatorin takia olisi pitänyt keksiä lyhyt käännös sdevp ja sdev -komennoille. Päätin, että noita ei kannata kääntää. Niinpä keskihajonta on myös suomenkielellä

stdevp(luvut)
-> 1.41

ja otoskeskihajonta

stdev( luvut )
-> 1.58

Minä yritän muistaa omissa laskuissani, että keskihajonta (jakoviivan alla on n) sisältää kirjaimen p(opulation) ja otoskeskihajonnassa sitä p:tä ei ole.

luokiteltu aineisto

Kesiarvo- ja keskihajonta komentoihin liittyy myös mahdollisuus käyttää syötteenä luokiteltua aineistoa. Kuvitellaan, että ykkösten lukumäärä on 1, kakkosten 2, kolmosten 3, nelosten 3 ja vitosten 1. Luodaan lista f kuvaamaan frekvenssejä.

f:={1,2,3,2,1}
-> {1, 2, 3, 2, 1}

Luokitellun aineiston keskiarvon, keskihajonnan ja otoskeskihajonnan saa laskettua:

yhden muuttujan analyysi -työkalu

Tässä vaiheessa tietysti pitää muistuttaa arvoisaa lukijaa, että normaalitilanteessa ei kannata käyttää näitä komentoja vaan taulukkolaskentaa ja Yhden muuttujan analyysi -työkalua.

Näihin tilastotieteen funktioihin pitää perehtyä tarkemmin. Palaan aiheeseen joskus. Tai ainakin siinä vaiheessa kun optan aiheeseen liittyviä kursseja.