Spaar ze allemaal!

Spaar ze allemaal!

Eens in de zoveel tijd is het zover. De supermarkten zijn nauwelijks begaanbaar door kinderen die bij de ingang hun collecties van voetbalplaatjes compleet proberen te krijgen. Maar niet iedereen heeft zin om voor de supermarkt te staan of om te ruilen. Dan is de vraag, hoeveel plaatjes moet je eigenlijk gemiddeld met de boodschappen 'binnenhalen' om je collectie compleet te krijgen?

We zouden willen weten hoeveel voetbalplaatjes je gemiddeld bij de boodschappen moet krijgen om een complete collectie te vullen. Dat moet uit te rekenen zijn. Daarbij wel een aantal aannames:

  • Er zijn $N$ verschillende voetbalplaatjes. 
  • De actie is helemaal eerlijk en er zijn geen zeldzame plaatjes. Met andere woorden: elk plaatje heeft evenveel kans.

Om te berekenen wat het gemiddelde aantal plaatjes is dat we moeten krijgen om een album te vullen, is het eerst handig om te weten hoeveel plaatjes we gemiddeld nodig hebben om een 'nieuw' plaatje te krijgen. Met 'nieuw' bedoelen we in dit geval een plaatje dat je nog niet in je stapel plaatjes hebt. Het zou dus kunnen zijn dat je verzameling voetbalplaatjes eruitziet als: 

$$\{Mats\ Seuntjens, Robin\ Maulun, Nick\ Bakker, Robin\ Maulun\}$$

dus $4$ plaatjes in totaal en slechts $3$ verschillende. Als je dan nog een $Mats\ Seuntjens$ krijgt, heb je geen 'nieuwe'. Als je echter een $Ricky\ van\ Wolfswinkel$ krijgt, dan spreek je wel over een nieuw plaatje. 

We noemen $E[X_n]$ het verwachte aantal plaatjes dat je moet binnen zien te krijgen voor het $n^e$ item in je collectie na het verkrijgen van het $(n - 1)^e$ plaatje. In de  kansrekening staat $E$ voor de verwachtingswaarde; $X_n$ is het aantal plaatjes dat je moet sparen voor het ne nieuwe plaatje in je collectie. $E[X_1] = 1$, want het eerste plaatje dat je krijgt is gegarandeerd nieuw als je net begint. 

Vanaf het tweede plaatje wordt het interessanter omdat het kan zijn dat bijvoorbeeld je eerste plaatje $Mats\ Seuntjens$ is, maar dat je vervolgens nog $10$ keer $Mats\ Seuntjens$ krijgt en dan pas $Robin\ Maulun$. Dan zou gelden $X_2 = 11$. Hier komen dus kansen in het spel en we zeggen ook wel dat $X_2$ een kansvariabele is.

Laten we de kansen voor elke waarde van $X_2$ bepalen. Het zou kunnen dat je geluk hebt en dat je in één keer het tweede nieuwe plaatje scoort. Dan hebben we
dus $X_2 = 1$ en de kans daarop is $\frac{N-1}{N}$, je hebt immers al één plaatje, dus een nieuw plaatje moet afkomstig zijn uit de overige $N - 1$ plaatjes. 

Stel nu dat je pas na twee keer blij wordt met een nieuw plaatje, omdat je eerst een plaatje pakte dat je al had (hè bah, een dubbele). De kans dat je een plaatje pakt dat je al had is $\frac{1}{N}$ en zoals we weten is de kans om een nieuw plaatje te pakken gelijk aan $\frac{N - 1}{N}$ . Dus de kans om eerst een plaat je te pakken dat je al had en dan een nieuw plaatje is gelijk aan: 

$$\frac{1}{N}\cdot\frac{N-1}{N}.$$

Als je pas na drie voetbalplaatjes een nieuwe hebt, had je dus eerst twee keer het voetbalplaatje dat je al had en toen pas een nieuwe; de kans daarop is $\frac{1}{N}\cdot\frac{1}{N}\cdot\frac{N-1}{N}$ en dus

$$\left(\frac{1}{N}\right)^2\cdot\frac{N-1}{N}.$$

Als we zo doorgaan, zie je dat de kans om pas na $k$ voetbalplaatjes het tweede nieuwe voetbalplaatje te krijgen wordt gegeven door

$$\left(\frac{1}{N}\right)^k\cdot{N-1}{N}.$$

Nu kunnen we de gemiddelde waarde, of verwachtingswaarde van $X_2$ berekenen. Deze is gelijk aan de som van alle mogelijke uitkomsten maal de kans op die uitkomst.

$$\begin{align*} E[X_2] &= 1\cdot \frac{N-1}{N}+2\cdot\frac{1}{N}\cdot\frac{N-1}{N}+3\cdot\left(\frac{1}{N}\right)^2\cdot\frac{N-1}{N}\\ &= \frac{N-1}{N}\left(1+2\cdot\frac{1}{N}+3\cdot\left(\frac{1}{N}\right)^3+\cdots\right) \end{align*}$$

Om de oneindige reeks tussen de haken op te tellen maken we even een uitstapje naar de meetkundige reeks. Voor $|x| < 1$ is een bekend resultaat dat

$$1+x+x^2+x^3+\cdots=\frac{1}{1+x}.$$

Als we nu beide kanten differentiëren, dan krijgen we

$$1+2x+3x^2+4x^3+\cdots=\frac{1}{(1-x)^2}.$$

Als we hier nu invullen $x=\frac{1}{N}$, dan krijgen we precies die oneindige reeks tussen de haakjes. Dus

$$1+2\cdot\frac{1}{N}+3\cdot\left(\frac{1}{N}\right)^2 + \cdots = \frac{1}{\left(1-\frac{1}{N}\right)^2}=\frac{N^2}{(N-1)^2},$$

en we vinden dat

$$E[X_2]=\frac{N-1}{N}\cdot\frac{N^2}{(N-1)^2}=\frac{N}{N-1}.$$

Dit is dus het gemiddelde aantal plaatjes dat we moeten krijgen om het tweede nieuwe voetbalplaatje te ontvangen. 

Als we het tweede nieuwe plaatje in handen hebben, dan zijn we natuurlijk geïnteresseerd in het gemiddeld aantal plaatjes tot het derde nieuwe plaatje. Voor $X_3$ kun je op dezelfde manier vinden dat

$$E[X-3]=\frac{N}{N-2}.$$

Herinner dat we $X_n$ noteren voor het aantal plaatjes dat we ontvangen na het $n - 1$-de nieuwe plaatje tot het $n$-de nieuwe plaatje. Algemener vinden we dat

$$E[X_n]=\frac{N}{N-(n-1)}.$$

Dan nu de oorspronkelijke vraag: hoeveel plaatjes heb je nodig om je hele collectie van $N$ verschillende plaatjes compleet te krijgen? Wel: Voor het eerste plaatje hebben we $X_1$ plaatjes nodig. Vervolgens duurt het na dit eerste nieuwe plaatje nog $X_2$ plaatjes om het volgende nieuwe plaatje te ontvangen en in totaal heb je
dan al $X_1 + X_2$ plaatjes. Voor je derde nieuwe plaatje moet je na je tweede plaatje nog eens $X_3$ plaatjes wachten en dan heb je in totaal $X_1 + X_2 + X_3$ plaatjes. Als we dus alle $N$ verschillende plaatjes willen hebben, dan moeten we in totaal $X_1 + X_2 + X_3 + \cdots + X_N$ plaatjes sparen.

Het gemiddelde aantal plaatjes dat we nodig hebben om een vol album te krijgen is dus gelijk aan het gemiddelde van deze som: $E[X_1 + X_2 + \cdots + X_N]$.

$$\begin{align*} E[X_1&+X_2+\cdots X_N] \\ &= E[X_1]+E[X_2]+E[X_3]+\cdots+E[X_N]\\ &= N\cdot\left(\frac{1}{N}+\frac{1}{N-1}+\frac{1}{N-2}+\cdots+\frac{1}{1}\right) \end{align*}.$$

Tussen de haakjes staat $\frac{1}{1}+\frac{1}{2}+\frac{1}{3}+\cdots+\frac{1}{N}$. Dit is de bekende $N^e$ Harmonische som, ook wel genoteerd als $H_N$. Het verwachte aantal plaatjes $E_N$ dat je moet binnenhalen om de hele collectie van $N$ verschillende voetbalplaatjes compleet te krijgen is dus $E_N=N\cdot H_N$ met $H_N=\frac{1}{1}+\frac{1}{2}+\frac{1}{3}+\cdots+\frac{1}{N}$. Door te sommeren met je grafische rekenmachine kun je zo'n rij makkelijker uitrekenen dan met de hand.

Even wat voorbeelden:

$X$    $EN$    gemiddeld aantal te
sparen plaatjes
$10$    $29{,}29$    $30$
$20$    $71{,}95$    $72$
$30$    $119{,}85$    $120$

Bij zo'n laatste soort spaaractie waren er $292$ voetbalplaatjes. Om die $292$ voetbalplaatjes compleet te krijgen moet je gemiddeld $1827$ plaatjes scoren! Je kreeg
er vier voor € 10 dus moest er gemiddeld iets meer dan € 4500 aan boodschappen worden uitgegeven voor je album compleet is! Slimme actie van die supermarkt.