Tein Pythonilla ohjelman, jonka avulla laskin Seitsemän veljeksen sanojen lukumääriä ynnä muuta. Palaan itse ohjelmaan tulevissa tarinoissani. Tässä selvittelen mitä mielenkiintoista löysin, kun leikin ohjelmallani.
pisimmät sanat
Oheisessa taulukossa on muutamia pisimpiä sanoja.
# | lkm | sana | pituus |
1 | 1 | maamittarikustannuksilla | 24 |
2 | 1 | rangaistus-parakraaffia | 23 |
2 | 1 | jäähyväis-syleilyksensä | 23 |
4 | 1 | henkivartija-pataljooni | 23 |
5 | 1 | kanaljavikkelyyksiämme | 22 |
6 | 1 | noitakurkistimellansa | 21 |
7 | 2 | saapasnahka-tornissa | 20 |
7 | 2 | huoneenhallituksessa | 20 |
7 | 1 | ymmärtämättömyytensä | 20 |
7 | 1 | vieraanvaraisuudesta | 20 |
7 | 1 | uuttatestamenttiansa | 20 |
7 | 1 | sovintoa-saattavalla | 20 |
7 | 1 | saapasnahka-tornista | 20 |
7 | 1 | purppura-hameessansa | 20 |
7 | 1 | pieksiäis-ryöppäystä | 20 |
7 | 1 | nokipoika-vekkulilta | 20 |
7 | 1 | maahanpaniaisiksensa | 20 |
7 | 1 | lähetyskappaleitansa | 20 |
Pisin sana ”maamittarikustannuksilla” on kirjan ensimmäisessä luvussa. Aapo pohdiskelee Jukolan talon jakoa veljilleen.
… Mutta minä tiedän, ettei yksikään meistä kernaasti siirry Jukolan armaitten alojen vaiheilta pois, ja eihän pakoita siihen tilamme ahtaus, vaan onpa väljyyttä seitsemälle veljelle näillä mantereilla. Mutta hän, joka aikaa voittain tuntisi halun perustamaan itsellensä oman asunnon ja perheen eikä kuitenkaan mieli tässä lain voimalla ja maamittarikustannuksilla käydä pirstoilemaan taloa, eikö taitaisi hän tyytyä seuraavaan etuun?…
sanojen pituuksien jakauma
Sanojen pituusjakauma ja tilastotietoa GeoGebralla laskettuna.

Kun laskin sanojen pituuksien lukumäärät, yllätyin, että jakauma näytti lähes Poisson-jakaumalta. Toki kaksikirjaimisten sanojen määrä on suuri, johtuen kielemme sanoista ja, me he, jne. Näitä on usein tekstissä.

Kuvassa punaiset palkit edustavat Seitsemän veljeksen jakaumaa ja mustat palkit Poisson-jakaumaa keskiarvolla 6,4046.
Pakkohan se oli sitten lukea myös Nummisuutarit. Sen pisin sana on ”ilkivaltasuuksillasi”

Jakaumat ovat kovasti saman näköisiä. Johtuuko tämä kirjailijasta vai jostain yleisemmästä suomen kielen ominaisuudesta? Tätä pitää tutkiskella lisää erilaisilla materiaaleilla.

luettavaa aiheesta
En löytänyt nopealla etsimisellä suomen kielistä tutkimusta aiheesta. Ulkomailla asiaa on tutkittu pidempääkin.
Peter Grzybek. History and Methodology of Word Length Studies. http://peter-grzybek.eu/science/publications/2006/grzybek_2006_history_methodology_word_length.pdf
LordRothschild. The distribution of English dictionary word lengths. https://www.sciencedirect.com/science/article/abs/pii/0378375886901692