Alle zesentwintig

Sommige taalkundigen houden van hetzelfde soort puzzels als wiskundigen. Zo vroeg iemand zich eens af hoe lang een tekst moet zijn om met een zekerheid van 95% alle letters uit het alfabet te bevatten.
In dit artikel gaan we die vraag beantwoorden, maar leggen we eerst een probleem voor dat jullie straks zelf mogen oplossen.

Startprobleem
Stel dat een zeer grote hoeveelheid blokjes precies gelijk verdeeld is in vier kleuren: rood, blauw, geel en groen. Hoeveel blokjes moet
je (willekeurig gekozen, zonder naar de kleur te kijken) pakken om, met een zekerheid van minstens 95%, elk van de vier kleuren verte- genwoordigd te hebben? Neem daarbij, omwille van de eenvoud, aan dat de trekkingen van de blokjes onafhankelijk van elkaar zijn.

Hier de taalkundige vraag. Die komt uit het prachtige boek van de Amerikaanse auteur Ross Eckler Jr., getiteld Making the Alfabet Dance - Recreational wordplay (1996). De wiskundige/statisticus Eckler, die 30 jaar bij Bell Telephone Laboratories werkte, kwam in 1968 in aanraking met het tijdschrift Word Ways, waarin allerlei woordpuzzels, anagrammen, palindromen (dit zijn 'keerwoorden' als radar, droomoord of parterretrap) en veel meer werden gepubliceerd. Eckler werd zó gegrepen door deze tak van recreatieve taal, dat hij vanaf 1970 hoofd- redacteur werd en dat bleef tot 2007. Het boek is een bundeling van artikelen tot dan toe, met stukjes en vondsten van Eckler en vele lezers. Een van zijn vondsten is het 'charitable word', misschien het beste te vertalen met 'welwillend woord'. Een welwillend woord is een woord waarbij elke letter van dat woord kan worden verwijderd, waarna er nog steeds een goed Nederlands woord overblijft. Een voorbeeld van een welwillend woord in het Nederlands is buil. Als we de 'b' weglaten, blijft uil over; zonder 'u' resteert bil; daarna volgen bul en bui. Op pagina 59 van Making the Alfabet Dance wordt de volgende vraag gesteld:

Vervolgprobleem
Hoe lang moet een tekst zijn (in letters uitgedrukt), zodanig dat de kans dat elke letter uit het alfabet er in voorkomt, minstens $95\%$ is?

NB: In het boek wordt een kans van 50% gebruikt, maar ik ga hier uit van de gangbare wetenschappelijke betrouwbaarheid van $95\%$, het percentage dat in 1926 door Ronald Fischer werd voorgesteld en wereldwijd is geaccepteerd.


Eckler gebruikt bij de oplossing van deze vraag de relatieve frequenties van letters als kansen op die bepaalde letter. In het Nederlands doen wij dat uit de tabel uit Battus' boek Opperlans! (2013) hieronder. Daaruit blijkt bijvoorbeeld dat voor een willekeurige letter in een Nederlandse tekst de kans dat die letter een e is ongeveer $0{,}19$ is. Voor de a is dat ongeveer $0{,}076$.

   Letter       Frequentie    Relatieve
   frequentie   
        Letter       Frequentie    Relatieve
   frequentie   
e $1586$ $0{,}1914$   m $188$ $0{,}0227$
n $858$ $0{,}1035$   k $187$ $0{,}0226$
a $633$ $0{,}0764$   u $159$ $0{,}0192$
t $556$ $0{,}0671$   w $130$ $0{,}0157$
r $542$ $0{,}0654$   p $123$ $0{,}0148$
d $512$ $0{,}0618$   c $123$ $0{,}0148$
o $482$ $0{,}0582$   b $119$ $0{,}0144$
i $467$ $0{,}0564$   z $116$ $0{,}0140$
s $351$ $0{,}0424$   f $70$ $0{,}0084$
l $310$ $0{,}0374$   j $25$ $0{,}0030$
g $282$ $0{,}0340$   y $8$ $0{,}0010$
h $232$ $0{,}0280$   x $3$ $0{,}0004$
v $223$ $0{,}0269$   q $1$ $0{,}0001$
Bron: Battus (2003), p. 'fq'; aangepast

 

Noem $p_a$ de kans op die letter a. Dan is de kans op minstens één letter a in een tekst ter lengte $n$ (letters) gelijk aan $1$ minus de kans op geen enkele keer a (via de complementregel), dus 

$$1 - (1 - p_a)^n.$$

We gebruiken hierbij, net als bij de blokjes, een benadering, door aan te nemen dat het optreden van letters onafhankelijk is. We krijgen dat de kans dat in een tekst ter lengte $n$ (spaties niet meetellend) alle $26$ letters a tot en met z minstens één keer voorkomen, gelijk is aan

$$\left(1 - (1 - p_a)^n\right)\left(1 - (1 - p_b)^n\right) \cdots \left(1 - (1 - p_z)^n\right)$$ (1)

Deze kans moet minstens $0{,}95$ zijn. Er moet dus gelden:

$$(1 - 0{,}9236^n)( 1 - 0,9856^n) \cdots (1 - 0{,}986^n) \ge 0,95$$

Zetten we deze formule in Excel en gebruiken we de Solver (Oplosser), dan krijgen we $n = 24{,}841$ (letters). Uitgaande van ongeveer $1500$ letters per boekpagina, zou je dus ruim $16{,}5$ pagina's in een willekeurig boek moeten lezen, om, met een zekerheid van $95\%$, elke letter van ons alfabet tegen te zijn gekomen! Op vergelijkbare wijze kun je nu het probleem van de blokjes oplossen.

Bekijk oplossing