Seitsemän veljestä on Poisson-jakautunut?

Tein Pythonilla ohjelman, jonka avulla laskin Seitsemän veljeksen sanojen lukumääriä ynnä muuta. Palaan itse ohjelmaan tulevissa tarinoissani. Tässä selvittelen mitä mielenkiintoista löysin, kun leikin ohjelmallani.

pisimmät sanat

Oheisessa taulukossa on muutamia pisimpiä sanoja.

#lkmsanapituus
11maamittarikustannuksilla24
21rangaistus-parakraaffia23
21jäähyväis-syleilyksensä23
41henkivartija-pataljooni23
51kanaljavikkelyyksiämme22
61noitakurkistimellansa21
72saapasnahka-tornissa20
72huoneenhallituksessa20
71ymmärtämättömyytensä20
71vieraanvaraisuudesta20
71uuttatestamenttiansa20
71sovintoa-saattavalla20
71saapasnahka-tornista20
71purppura-hameessansa20
71pieksiäis-ryöppäystä20
71nokipoika-vekkulilta20
71maahanpaniaisiksensa20
71lähetyskappaleitansa20

Pisin sana ”maamittarikustannuksilla” on kirjan ensimmäisessä luvussa. Aapo pohdiskelee Jukolan talon jakoa veljilleen. 

… Mutta minä tiedän, ettei yksikään meistä kernaasti siirry Jukolan armaitten alojen vaiheilta pois, ja eihän pakoita siihen tilamme ahtaus, vaan onpa väljyyttä seitsemälle veljelle näillä mantereilla. Mutta hän, joka aikaa voittain tuntisi halun perustamaan itsellensä oman asunnon ja perheen eikä kuitenkaan mieli tässä lain voimalla ja maamittarikustannuksilla käydä pirstoilemaan taloa, eikö taitaisi hän tyytyä seuraavaan etuun?

sanojen pituuksien jakauma

Sanojen pituusjakauma ja tilastotietoa GeoGebralla laskettuna.

seitsemän veljestä, sanojen pituusjakauma

Kun laskin sanojen pituuksien lukumäärät, yllätyin, että jakauma näytti lähes Poisson-jakaumalta. Toki kaksikirjaimisten sanojen määrä on suuri, johtuen kielemme sanoista ja, me he, jne. Näitä on usein tekstissä.

seitsemän veljestä, sanojen suhteellinenpituusjakauma ja poisson-jakauma

Kuvassa punaiset palkit edustavat Seitsemän veljeksen jakaumaa ja mustat palkit Poisson-jakaumaa keskiarvolla 6,4046.

Pakkohan se oli sitten lukea myös Nummisuutarit. Sen pisin sana on ”ilkivaltasuuksillasi”

nummisuutarit, sanojen pituusjakauma

Jakaumat ovat kovasti saman näköisiä. Johtuuko tämä kirjailijasta vai jostain yleisemmästä suomen kielen ominaisuudesta? Tätä pitää tutkiskella lisää erilaisilla materiaaleilla.

seitsemän veljeksen ja nummisuutarien suhteelliset sanojen pituusjakaumat

luettavaa aiheesta

En löytänyt nopealla etsimisellä suomen kielistä tutkimusta aiheesta. Ulkomailla asiaa on tutkittu pidempääkin.

Peter Grzybek. History and Methodology of Word Length Studies. http://peter-grzybek.eu/science/publications/2006/grzybek_2006_history_methodology_word_length.pdf

LordRothschild. The distribution of English dictionary word lengths. https://www.sciencedirect.com/science/article/abs/pii/0378375886901692

One Reply to “Seitsemän veljestä on Poisson-jakautunut?”

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Google photo

Olet kommentoimassa Google -tilin nimissä. Log Out /  Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.