Boek voldoet aan wiskundige wet
Boeken en andere lange teksten voldoen vrijwel perfect aan een simpele wet, zo bleek uit een onderzoek van Spaanse wiskundigen. De wet zegt dat het meest voorkomende woord twee keer zo vaak voorkomt als het op-één-na meest voorkomende woord, drie keer zo vaak als het derde woord, en zo verder.
De wet, bedacht door de taalkundige George Kingsley Zipf, was al langer bekend, maar niemand had hem ooit echt getest. Isabel Moreno-Sánchez, Francesc Font-Clos en Álvaro Corral besloten om het eens uit te zoeken, en gingen daarvoor aan de slag met ruim 30.000 Engelse teksten uit Project Gutenberg, een database van duizenden teksten.
De analyse liet zien dat zo’n 40 procent van de teksten perfect aan de wet voldoet. Als de zeldzaamste woorden – die maar één of twee keer per tekst voorkomen – achterwege worden gelaten, neemt dat percentage zelfs toe tot 55 procent. Dat zijn hoge cijfers voor zo’n simpele wet, omdat veel dingen uit het ‘echte leven’ niet zo makkelijk zijn uit te drukken in wiskundige modellen. De meeste statistische verdelingen volgen bijvoorbeeld de Gauss-kromme, en die vereist twee parameters: het gemiddelde en de standaardafwijking. Zipfs taalwet vereist echter maar één parameter, namelijk het meest voorkomende woord. Om precies te zijn: de formule voor de woordfrequentie is 1/(na), waarbij a de frequentie van het meest voorkomende woord is en n de positie in de ranglijst van voorkomende woorden. Dus a is hierin de enige ‘vaste waarde’ die nodig is om de kromme te vormen.
Tot nu toe werd de waarheid van de wet altijd gestoeld op heuristisch bewijs: een enkel boek hier en daar dat aan de regel voldeed. Dankzij de nieuwe analyse is de taalwetenschap ietsje preciezer geworden. (MS)