Seitsemän veljestä on Poisson-jakautunut?

Tein Pythonilla ohjelman, jonka avulla laskin Seitsemän veljeksen sanojen lukumääriä ynnä muuta. Palaan itse ohjelmaan tulevissa tarinoissani. Tässä selvittelen mitä mielenkiintoista löysin, kun leikin ohjelmallani.

pisimmät sanat

Oheisessa taulukossa on muutamia pisimpiä sanoja.

#lkmsanapituus
11maamittarikustannuksilla24
21rangaistus-parakraaffia23
21jäähyväis-syleilyksensä23
41henkivartija-pataljooni23
51kanaljavikkelyyksiämme22
61noitakurkistimellansa21
72saapasnahka-tornissa20
72huoneenhallituksessa20
71ymmärtämättömyytensä20
71vieraanvaraisuudesta20
71uuttatestamenttiansa20
71sovintoa-saattavalla20
71saapasnahka-tornista20
71purppura-hameessansa20
71pieksiäis-ryöppäystä20
71nokipoika-vekkulilta20
71maahanpaniaisiksensa20
71lähetyskappaleitansa20

Pisin sana ”maamittarikustannuksilla” on kirjan ensimmäisessä luvussa. Aapo pohdiskelee Jukolan talon jakoa veljilleen. 

… Mutta minä tiedän, ettei yksikään meistä kernaasti siirry Jukolan armaitten alojen vaiheilta pois, ja eihän pakoita siihen tilamme ahtaus, vaan onpa väljyyttä seitsemälle veljelle näillä mantereilla. Mutta hän, joka aikaa voittain tuntisi halun perustamaan itsellensä oman asunnon ja perheen eikä kuitenkaan mieli tässä lain voimalla ja maamittarikustannuksilla käydä pirstoilemaan taloa, eikö taitaisi hän tyytyä seuraavaan etuun?

sanojen pituuksien jakauma

Sanojen pituusjakauma ja tilastotietoa GeoGebralla laskettuna.

seitsemän veljestä, sanojen pituusjakauma

Kun laskin sanojen pituuksien lukumäärät, yllätyin, että jakauma näytti lähes Poisson-jakaumalta. Toki kaksikirjaimisten sanojen määrä on suuri, johtuen kielemme sanoista ja, me he, jne. Näitä on usein tekstissä.

seitsemän veljestä, sanojen suhteellinenpituusjakauma ja poisson-jakauma

Kuvassa punaiset palkit edustavat Seitsemän veljeksen jakaumaa ja mustat palkit Poisson-jakaumaa keskiarvolla 6,4046.

Pakkohan se oli sitten lukea myös Nummisuutarit. Sen pisin sana on ”ilkivaltasuuksillasi”

nummisuutarit, sanojen pituusjakauma

Jakaumat ovat kovasti saman näköisiä. Johtuuko tämä kirjailijasta vai jostain yleisemmästä suomen kielen ominaisuudesta? Tätä pitää tutkiskella lisää erilaisilla materiaaleilla.

seitsemän veljeksen ja nummisuutarien suhteelliset sanojen pituusjakaumat

luettavaa aiheesta

En löytänyt nopealla etsimisellä suomen kielistä tutkimusta aiheesta. Ulkomailla asiaa on tutkittu pidempääkin.

Peter Grzybek. History and Methodology of Word Length Studies. http://peter-grzybek.eu/science/publications/2006/grzybek_2006_history_methodology_word_length.pdf

LordRothschild. The distribution of English dictionary word lengths. https://www.sciencedirect.com/science/article/abs/pii/0378375886901692

Advertisement

Korjaan Poisson-komennon

Tilastokomentoihin liittyvää artikkelia kirjoittaessa huomasin, että komentoja kirjoitettaessa tabulaattori ei toiminut oikein. Vika oli käännöksessä.

Kun käännän GeoGebra-komentoja käännöstyökalulla, niin pitää muistaa syntaksi. Tuollapa oli vihre.

Muutin komennon ohjeen muotoon

Tämä päivittynee lähiaikoina GeoGebran kaikkiin versioihin.

Muistini mukaan vastaava virhe on jossain muuallakin GeoGebrassa. Kerro, niin korjaan.

Jakaumakomentoja GeoGebralla 1

[edit. 3.11 Lisäsin Miken kommentin GeoGebra-foorumilta]

Lukion lyhyen matematiikan Tilastot ja todennäköisyys 2 -kurssilla opitaan jakaumiin liittyvää matematiikkaa. Kaikkein helpoimmin suurin osa tehtävistä ratkeaa käyttämällä GeoGebra 5 ja 6 versioiden Todennäköisyyslaskuria. Jakaumia voi laskea myös käyttämällä komentoja. Tutkitaan komentojen käyttöä esimerkkien avulla.

Binomijakauma

Esimerkki 1. Heitetään noppaa 10 kertaa. a) Kuinka suurella todennäköisyydellä saadaan tasan kolme kuutosta? b) Kuinka suurella todennäköisyydellä saadaan korkeintaan kolme kuutosta.

GeoGebran CAS:issa Binomijakauma(n, p, k, totuus) laskee Binomijakauman pistetodennäköisyyden arvon, jos totuus on false. Jos totuusarvo on true, niin komento laskee kertymäfunktion arvon.

Ratkaisu:

Kuva, joka sisältää kohteen teksti

Kuvaus luotu automaattisesti

Viimeisellä rivillä näkyy menetelmä, jolla saa laskettua todennäköisyyksien summan peräkkäisillä k:n arvoilla.

Todennäköisyyslaskurilla:

Jos komentoa käyttää syöttökentässä, niin sen avulla saa piirrettyä jakauman histogrammin piirtoalueelle.

Poissonjakauma

Esimerkki 2. Koulun ruokalassa on ruokavälitunnilla keskimäärin 10,3 oppilasta jonossa. Tulet ruokailemaan. a) Millä todennäköisyydellä jonossa on tasan 8 oppilasta ennen sinua? b) Millä todennäköisyydellä jonossa on yli kahdeksan oppilasta. c) Millä todennäköisyydellä jonossa on 3…8 oppilasta?

Komento Poisson( µ, k, totuus ) toimii samalla tavalla kuin Binomijakaumakomentokin.

Ratkaisu:

c-kohta Todennäköisyyslaskurilla:

Nytpä havaitsin bugin GeoGebrassa. Jos tuolla syntaksilla Poisson(10.3, 3..8) odotusarvo on ei luonnollinen luku, niin komento antaa väärän tuloksen. Luonnollisilla odotusarvoluvuilla komento näyttää laskevan oikein. Lähetin aiheesta viestin GeoGebra foorumille. https://help.geogebra.org/topic/poisson10-5-11-16-gives-wrong-answer

Miken vastaus :o)

CAS:issa 

Kuva, joka sisältää kohteen teksti

Kuvaus luotu automaattisesti

antaa saman tuloksen kuin Todennäköisyyslaskurikin.

Syöttökentässä Poisson(10.3) tuottaa jakauman histogrammin.

Tämän bugin selvittämiseen meni sen verran aikaa, että jatkan normaalijakauman komennoista lähipäivinä.