Edellisessä artikkelissani ”Seitsemän veljestä Poisson-jakautunut?” kerroin Python-ohjelmani tuotoksista liittyen Aleksis Kiven Seitsemään veljekseen. En malttanut olla leikkimättä lisää ohjelmani tuottamalla datalla Excelissä. Samalla opiskelen Excelin kuvaajien piirtoa, enpä ole vähään aikaa näilläkään puuhastellut.
Alla olevassa taulukossa on 10 yleisintä sanaa Kirjassa.
#
lkm
sana
pituus
1
4253
ja
2
2
1329
mutta
5
3
1051
hän
3
4
1009
juhani
6
5
820
on
2
6
770
niin
4
7
620
kuin
4
8
538
nyt
3
9
533
oli
3
10
485
ei
2
Veljeksien nimet, minulle oli yllätys, että Eero mainitaan noin harvoin kirjassa suhteessa vanhempiin veljiin. Pääosassa kirjassa sittenkin taitaa olla Juhani. Joskus pitänee laskea mukaan taivutusmuodot. Tai sitten tehdä sitä varten uusi ohjelma, hmm… päässä alkoi taas surisemaan.
#
lkm
sana
4
1009
juhani
13
406
aapo
15
368
timo
21
298
tuomas
23
287
simeoni
25
271
eero
36
172
lauri
Muita nimiä, viittauksia henkilöihin tai kissaan. Ei Venlaa kovin usein mainita, vaikka eiköhän hän ole mukana ainakin veljesten mielessä.
#
lkm
sana
161
47
lukkari
177
44
mäkelä
178
44
mikko
266
31
kaisa
319
25
venla
330
25
jussi
419
20
nimismies
406
21
killi
490
17
venlan
655
14
juho
698
13
mikon
843
11
nahkapeitturin
868
11
kaisan
Paholaisen nimi esiintyy muutaman kerran tarinassa, kirosanana tai nimenä.
Tein Pythonilla ohjelman, jonka avulla laskin Seitsemän veljeksen sanojen lukumääriä ynnä muuta. Palaan itse ohjelmaan tulevissa tarinoissani. Tässä selvittelen mitä mielenkiintoista löysin, kun leikin ohjelmallani.
pisimmät sanat
Oheisessa taulukossa on muutamia pisimpiä sanoja.
#
lkm
sana
pituus
1
1
maamittarikustannuksilla
24
2
1
rangaistus-parakraaffia
23
2
1
jäähyväis-syleilyksensä
23
4
1
henkivartija-pataljooni
23
5
1
kanaljavikkelyyksiämme
22
6
1
noitakurkistimellansa
21
7
2
saapasnahka-tornissa
20
7
2
huoneenhallituksessa
20
7
1
ymmärtämättömyytensä
20
7
1
vieraanvaraisuudesta
20
7
1
uuttatestamenttiansa
20
7
1
sovintoa-saattavalla
20
7
1
saapasnahka-tornista
20
7
1
purppura-hameessansa
20
7
1
pieksiäis-ryöppäystä
20
7
1
nokipoika-vekkulilta
20
7
1
maahanpaniaisiksensa
20
7
1
lähetyskappaleitansa
20
Pisin sana ”maamittarikustannuksilla” on kirjan ensimmäisessä luvussa. Aapo pohdiskelee Jukolan talon jakoa veljilleen.
… Mutta minä tiedän, ettei yksikään meistä kernaasti siirry Jukolan armaitten alojen vaiheilta pois, ja eihän pakoita siihen tilamme ahtaus, vaan onpa väljyyttä seitsemälle veljelle näillä mantereilla. Mutta hän, joka aikaa voittain tuntisi halun perustamaan itsellensä oman asunnon ja perheen eikä kuitenkaan mieli tässä lain voimalla ja maamittarikustannuksilla käydä pirstoilemaan taloa, eikö taitaisi hän tyytyä seuraavaan etuun?…
sanojen pituuksien jakauma
Sanojen pituusjakauma ja tilastotietoa GeoGebralla laskettuna.
seitsemän veljestä, sanojen pituusjakauma
Kun laskin sanojen pituuksien lukumäärät, yllätyin, että jakauma näytti lähes Poisson-jakaumalta. Toki kaksikirjaimisten sanojen määrä on suuri, johtuen kielemme sanoista ja, me he, jne. Näitä on usein tekstissä.
seitsemän veljestä, sanojen suhteellinenpituusjakauma ja poisson-jakauma
Kuvassa punaiset palkit edustavat Seitsemän veljeksen jakaumaa ja mustat palkit Poisson-jakaumaa keskiarvolla 6,4046.
Pakkohan se oli sitten lukea myös Nummisuutarit. Sen pisin sana on ”ilkivaltasuuksillasi”
nummisuutarit, sanojen pituusjakauma
Jakaumat ovat kovasti saman näköisiä. Johtuuko tämä kirjailijasta vai jostain yleisemmästä suomen kielen ominaisuudesta? Tätä pitää tutkiskella lisää erilaisilla materiaaleilla.
seitsemän veljeksen ja nummisuutarien suhteelliset sanojen pituusjakaumat
luettavaa aiheesta
En löytänyt nopealla etsimisellä suomen kielistä tutkimusta aiheesta. Ulkomailla asiaa on tutkittu pidempääkin.
Edellisessä artikkelissani Jakaumakomentoja GeoGebralla 1 käsittelin GeoGebran diskreetteihin jakaumiin liittyviä komentoja: Binomijakauma ja Poisson. Tutkitaanpa tällä kertaa normaalijakaumaa muutamien esimerkkien avustuksella.
Normaalijakauma
Esimerkki 1. 20 vuotiaiden poikien pituuden keskiarvo on 180,5 cm ja keskihajonta 6,3 cm. a) Kuinka suuri osa pojista on alle 175 cm. b) välillä 170, … 190 cm.
GeoGebran Normaalijakauma(µ, σ, x ) laskee normaalijakauman N(µ, σ) kertymäfunktion arvon muuttujan arvolla x.
Ratkaisu:
Tehtävän b-kohta Todennäköisyyslaskurilla.
Normaalijakauma-komento on siinä mielessä mukava, että mikä tahansa syötteistä voi olla tuntematon yhtälöissä.
Esimerkki 2. Normaalijakautuneessa pituusjakaumassa keskiarvo oli 165 ja 75 % oli alle 182 cm. Määritä jakauman keskihajonta.
Ratkaisu:
Tätä ei voi ratkaista Todennäköisyyslaskurissa muutoin kuin kokeilemalla.
Esimerkki 3. Kuinka monen keskihajonnan päässä keskiarvosta on 97.5% jakauman arvoista?
Ratkaisu:
Saman olisi voinut tehdä myös normaalijakauman käänteisfunktiolla KäänteisNormaalijakauma.
Tämän voi ratkaista myös Todennäköisyyslaskurilla jättämällä X:n arvon tyhjäksi ja painamalla Enteriä Kertymäfunktion arvon kohdalla.
Esimerkki 4. Millä a:n arvolla jakaumassa N(0, 1) on 99% jakaumasta välillä -a ≤ x ≤ a?
Ratkaisu:
Todennäköisyyslaskurilla tämä onnistuu vain kokeilemalla.
Jos Normaalijakauma-komentoon laittaa loppuun false, niin komento antaa tulokseksi normaalijakaumafunktion arvon.
Edellisen perusteella tiedän, että kun vapaalla kädellä piirrän normaalijakauman, niin keskihajonta löytyy 60%:n korkeudelta verrattuna jakauman korkeimpaan kohtaan.
Syöttökenttään kirjoitettuna Normaalijakauma(0, 1, x, true) tuottaa normaalijakauman kertymäfunktion kuvaajan ja Normaalijakauma(0, 1, x, false) normaalijakauman kuvaajan.
Esimerkki 5. Resonanssi 7 fysiikan oppikirjassa tehtävässä 461 annettu mittaustuloksia sekunnin välein tunnin ajalta säteilymittarin tuottamista arvoista, kun tutkittiin Amerikum-241 isotoopin lähettämää säteilyä. Tehtävän c-kohdassa pitää muodostaa mittaustuloksista histogrammi ja pohtia mitä histogrammin muodon perusteella voi päätellä.
Ratkaisu: Todennäköisyyslaskurin avulla nähdään, että jakauma noudattaa hyvin normaalijakaumaa N(1199, 31.76)
Saman olisi saanut aikaiseksi luomalla mittaustuloksista listan l1, ja laskemalla sen avulla keskiarvon ja keskihajonnan sekä tuottamalla tarvittavat kuvaajat. Koska lista on noin suuri ja tarvitsen vain likiarvoja, niin kirjoitan komennot syöttökenttään.
karvo = keskar(l1)
khajonta=stdevp(l1)
pienin = Min(l1)
suurin = Max(l1)
reunat = Jono(pienin - 0.5, suurin + 0.5, 1)
histo = Histogrammi(reunat, l1)
f(x) = 3600*Normaalijakauma(karvo, khajonta, x, false)
Pylväskaavion olisi saanut hieman helpomminkin komennolla
pylvas = Pylväskaavio(l1, 1)
Vaikuttanee siltä, että mittarin tuottamat tulokset jakautuvat likimain normaalijakauman muotoon. Näin tuleekin käydä, jos ja kun kyseessä on satunnaisilmiö.
Lähipäivinä palaan aiheeseen, tutkimalla miten satunnaislukukomennot toimivat GeoGebrassa.