Statistiek en de macht van grote getallen

De virusuitbraak confronteert ons al bijna 3 jaar met op statistieken gebaseerde waarnemingen, conclusies en maatregelen. Gelukkig heb ik in mijn studies veel over metingen, steekproeven en trendlijnen meegekregen, dus ik ben niet snel onder de indruk van grote getallen. Toch zag ik “vriend en vijand” over elkaar heen buitelen, niet alleen naar aanleiding van de getallen op zich, maar vooral over de interpretaties en de waardeoordelen. Het was dan ook een verademing om een boek van Sanne Blauw te lezen, over “Hoe cijfers ons leiden, verleiden en misleiden“. Ik kan het iedereen aanraden; de titel is:

Het bestverkochte boek ooit (met deze titel)

uitgegeven bij De Correspondent.

Wat mij verontrust is dat mensen zo enorm veel waarde hechten aan getallen. En dat je alleen maar mee mag doen in de discussie als je zelf ook gewapend bent met cijfermateriaal, liefst nog dezelfde set als je gesprekspartner. Plotseling krijgt het woordje “normaal” een bijna mathematische betekenis van de gelijknamige Gaussverdeling, en alles wat buiten de standaardafwijking valt is abnormaal (mathematisch gerechtvaardigde discriminatie).
Statistiek en kansrekening maakt het mogelijk om tellingen of metingen uit verschillende domeinen aan elkaar te relateren, bijvoorbeeld hoeveel mensen ergens wonen, hoeveel er ziek zijn, hoeveel er meer dan modaal verdienen, hoeveel er religieus zijn, hoeveel er uit eten gaan of met hun pinpas betalen…. Correlaties (toevallig tegelijkertijd optreden van verschijnselen) worden dan te makkelijk gepromoveerd tot causale verbanden. Vervolgens kun je op heel onpersoonlijke manier allerhande conclusies verzinnen, en al snel bevelen dat iedereen die buiten de marges valt zich maar aan moet passen. Weg is je privacy, je persoonlijke keuzevrijheid, je recht op zelfbeschikking.

Intermezzo: Hoe kwam het zover?

Dat getallen zo belangrijk geworden zijn, komt vooral door onze verregaand gecomputeriseerde samenleving. Wij troosten onze identiteit nog met een alfabetische naam en een adres, maar in alle online gekoppelde beheerssystemen zijn dat hooguit ASCII tekst velden als opmerking of vlag bij “records“, waarin alleen maar getallen staan. Op die manier kan een computer razendsnel allerhande berekeningen, filters en criteria toepassen op grote groepen mensen. Ga maar na: je bent vooral een SOFI-nummer, waaraan een geboortedatum is gekoppeld, met vervolgens een postcode met huisnummer, IBAN, kenteken, verzekeringsnummers, DigiD account, allerhande online accounts op social media platforms (ook weer nummers), advertentie identificatie codes, bestelcodes en voorkeurs-artikelnummers, en ga zo maar door. Elke keer als je iets koopt, als je over de snelweg rijdt, jezelf meldt bij een instantie voor een vaccinatie, steeds weer worden je records aangevuld en “up-to-date” gemaakt.
Tegelijkertijd zijn er allerhande publieke (bijvoorbeeld het CBS) en verborgen (zoals online advertentie-makelaars, Alphabet en Meta) instanties die met jouw gegevens wat doen. Heel veel van die activiteiten lijken je leven makkelijker te maken. Je komt sneller aan informatie (zoekmachine), je vindt eerder het passende product (online shopping), je kunt zonder veel rompslomp in een dure parkeergarage (pin-pas) en je hoeft minder in te vullen op je belastingaangifte… Dit gemak zorgt ook voor grotere afstand tot en minder bewustzijn van wat je doet en hoeveel geld je uitgeeft. Omdat de mens van nature lui is (#HersenTrucs), en zich graag in de watten laat leggen, komen overheid, industrie en commercie ermee weg. Dit is nu al zo lang gaande, dat er geen weg terug meer is. Denk bijvoorbeeld maar aan de verandering van betalen met cash geld (beheerd door jouzelf) naar online bankieren (beheerd door het systeem). En nu er geen andere mogelijkheid is, berekenen de banken met plezier voor elke handeling buitensporig hoge kosten, waardoor geld vaak meer kost dan het opbrengt. Je mag tegenwoordig maximaal ruim 500€ per persoon thuis hebben, en anders moet je dat melden bij de fiscus. Allemaal stille drijfveren om geld te laten circuleren in de economie, zodat de vele strijkstokken hun aandeel kunnen afvangen.

Dat is een heel enge ontwikkeling, versterkt door personen en media die onvolledig en/of eenzijdig hierover communiceren (ik wil het nog net geen geplande communicatiecampagne noemen, zo geraffineerd zijn de meeste mensen van nature niet).

Statistiek zegt niet zoveel

Even een voorbeeld: de gemiddelde hoogte van een eettafel in een restaurant is ongeveer 75 cm. Dat is een compromis, afgestemd op de meest voorkomende lengtes van mensen. Statistisch gezien:

Volwassen Nederlandse mannen zijn gemiddeld 184 cm lang, vrouwen 170,6 cm.
Rondom de gemiddelde lengte bestaat een spreiding, zowel naar beneden als naar boven. Deze drukken we uit in Standaard Deviatie (SD).
95 procent van de (volwassen!) bevolking bevindt zich met zijn lengte tussen de grenzen – 2 SD en + 2 SD rondom het gemiddelde. Voor mannen is dit tussen de 170 cm en 198 cm; voor vrouwen tussen de 158 cm en 184 cm.
Mensen met een lengte boven de + 2 SD-grens noemen we groot. Ze behoren tot de 2,5 procent langste van de bevolking: 198 cm (mannen) of 184 cm (vrouwen). Kleine mensen hebben een lengte tot 2 SD lager dan het gemiddelde.
Een lengte boven de + 2,5 SD-grens noemen we buitengewoon groot (mannen: 204 cm, vrouwen: 186 cm).

Ik schat zo in dat mensen in de categorie tot +/- 1,5 SD tevreden zijn met de tafelhoogte in een restaurant. Daarbuiten wordt het langzaamaan steeds meer behelpen en aanpassen van stoelen enzovoorts, nog los van de verschillen tussen mannen en vrouwen. Dan doen ze het in traditioneel Japan slimmer: daar zit je gewoon op de grond, en doet de tafelhoogte er niet meer zoveel toe. Dit voorbeeld laat meteen de kracht en de zwakte van statistiek zien. Je kunt een compromis bedenken dat waarschijnlijk veel mensen een plezier doet, maar je kwelt daarmee diegenen die met hun knieën klem zitten onder het tafelblad, of wiens voeten niet op de vloer kunnen rusten. Tenzij je de gegevens gebruikt voor differentiatie: plaats tafels en stoelen van verschillende hoogte in je restaurant. Moet je wel weer iets bedenken voor groepen, en zo blijf je bezig… En dan zijn er nog regionale verschillen in Nederland, invloeden door bevolkingsmigraties, en ga zo maar door. En tot slot: procenten en getallen klinken leuk, maar als je niet weet hoe groot de populatie werkelijk is, weet je ook niet of je maatregel zinvol wordt: als er maar weinig mensen in de buurt van je restaurant wonen maakt het allemaal niets meer uit.

Statistiek is op zich makkelijk: tellen, sorteren en indelen, vervolgens met rekenprogrammas wat formules erop loslaten om bepaalde kengetallen en/of grafieken te produceren, en iedereen staat paf van je overzicht. Inzicht in de praktijk is echter heel wat ingewikkelder.

Kansrekening

Bij statistiek ben je vooral aan het tellen. Je kiest een verzameling met elementen, bijvoorbeeld alle volwassenen in Nederland, en één of meer eigenschappen (de lengte en woonprovincie). Deze eigenschappen definieren feitelijk deelverzamelingen. Het mooiste is als je alle elementen exact kunt tellen. Dan zijn de uitkomsten van statistische berekeningen goed, zolang de (deel-)verzamelingen niet veranderen (bijvoorbeeld omdat mensen verhuizen of overlijden). Heel vaak kun je niet alles tellen, en dan neem je een representatieve steekproef. Dat is een deelverzameling, waarvan je inschat dat de eigenschappen net zo verdeeld zijn als in het totaal. Statistiek geeft methoden om de nauwkeurigheid van de steekproef vast te stellen. In het algemeen: hoe kleiner de steekproef ten opzichte van de totale populatie, hoe groter de onnauwkeurigheid van de resultaten.

Intermezzo: Steekproefkwaliteit

Om een zinvol resultaat op te leveren moeten we dan ook de juiste deelverzameling kiezen. In het geval van het restaurant kun je dat doen door een jaar lang (om seizoeninvloeden uit te sluiten) van alle bezoekers de lengte te registreren. Dan heb je een representatiever steekproef dan de algemene statistiek voor een hele bevolking. Maar het blijft een steekproef, want het volgende jaar weet je niet of er buiten jouw zicht iets veranderd is. Wellicht zijn de pensioenen stevig gekort, en gaan ouderen ineens minder geld uitgeven. Of zijn auto’s alleen nog betaalbaar voor werkenden die van de werkgever een leasecontract krijgen als deel van hun inkomen. Wellicht zijn de benzineprijzen verdubbeld?

Een steekproef is belangrijk als je simpelweg niet de hele populatie kunt tellen. Zo lijkt het me onwaarschijnlijk dat van álle volwassen Nederlanders de lengte nauwkeurig is gemeten (een paspoort geldt niet echt, dat is een snelle inschatting van de beambte). Aan een steekproef kleven weer randvoorwaarden, waardoor het statistisch resultaat op zich een onzekerheid met zich meebrengt. Wat gebeurt er als je alleen s’ochtends de lengte meet? Of als je deelverzameling alleen uit Amsterdamse mannen bestaat? Het is een hoofdpijndossier van elke onderzoeker om een écht representatieve steekproef te nemen. Of dat zou het eigenlijk moeten zijn, maar kosten, gemakzucht en de eenvoud van formules die de nauwkeurigheid van een steekproef bepalen zodat je er weer mee kunt rekenen, zorgen ervoor dat in teveel gevallen de representativiteit discutabel is.

Ook kunnen (menselijke) tel- en registratiefouten ontstaan. Je kunt dus twee soorten uitspraken doen: “de kans dat een willekeurige Nederlandse volwassene tot de gemiddelde lengtecategorie behoort, is 95%” en “de kans dat iemand uit die gemiddelde lengtecategorie inderdaad een daarbij passende lengte heeft, is 90%” (dat laatste getal heb ik verzonnen; het gaat om de idee dat meting en berekening zelf onnauwkeurig zijn). Steekproeven zijn als het ware deelverzamelingen uit het grotere geheel. Hoe je die kiest qua grootte en kwaliteit, bepaalt de uitkomst en nauwkeurigheid van je berekening.

Statistiek en kansrekening gaan hand in hand. In het voorbeeld van de tafelhoogte zegt de statistiek eigenlijk alleen iets over de kans dat je een gast van bepaalde lengte kunt verwachten. En daar schuilt meteen ook het addertje onder het gras: lang niet alle mensen gaan zomaar uit eten. Het zou best wel eens kunnen zijn dat het vooral de beter gesitueerden zijn die zich een etentje kunnen veroorloven, en die door hun leefstijl wellicht ook gewend zijn aan andere voedingsgewoonten en daardoor gemiddeld een andere lengte hebben. Dat klinkt plausibel, zelfs zonder statistisch bewijs. Dus welke conclusie kun je eigenlijk trekken?

De verzamelingenleer maakt vaak gebruik van Venndiagrammen, aanschouwelijk weergegeven in de titelafbeelding. Elke verzameling bevat elementen, en bij een deelverzameling is het belangrijk om te weten welke elementen meegenomen moeten worden en welke niet. Die selectie gebeurt op grond van eigenschappen en/of criteria, zoals lengte, geslacht en regio. Wat doe je dan: kies je voor je steekproef iedereen die aan minstens één van deze voorwaarden beantwoordt, of alleen die mensen die aan alle criteria tegelijkertijd voldoen? Wat is het nut van een volstrekt willekeurige steekproef?

Intermezzo: Kansverdelingen

Ik liet in het voorbeeld de normale verdeling zien. Die komt vaak voor in bijvoorbeeld de foutenleer. Belangrijk daarbij is dat de elementen in de verzameling elkaar niet beïnvloeden, noch door externe krachten gestuurd worden. Ieder element is autonoom en op zichzelf staand. In de industriële kwaliteitszorg werkt deze verdeling goed, en is basis voor de Six-Sigma aanpak (sigma is het Griekse symbool voor de standaarddeviatie SD). Werkprocessen worden dan zo ingeregeld dat het eindresultaat met 99,99966% zekerheid voldoet aan de gestelde kwaliteitsnormen. Maar stel nu: je neemt een product ter hand, en vraagt hoe groot de kans is dat dit product aan die eisen voldoet? Zolang je nog niets gemeten hebt is die kans 50%, want de steekproefgrootte is exact 1. Als klant heb je niets aan een zogenaamde “dead on arrival”, een product wat het niet doet zodra je het hebt uitgepakt, ook al heeft de producent nog zulke strenge kwaliteitscontrole, en is zijn “yield” (opbrengst) beter dan 99,99966%.

Als er geen sprake kan zijn van de normale verdeling, dan heeft de wiskunde nog andere modellen die elk op eigen wijze moeten worden geïnterpreteerd. Daar ga ik niet verder op in, maar weet dat onderzoekers veel tijd spenderen aan het inschatten van de toepasbaarheid van een verdelingsmodel op een bepaalde situatie, en dat meestal de conclusie is dat het “bij benadering wel ongeveer klopt”. Getallen zeggen dus alleen iets zinvols onder specifieke omstandigheden en bij nauwkeurig vastgestelde randvoorwaarden. En dat is iets wat je in nieuwsberichten en persconferenties nauwelijks verteld wordt.

Een statistisch onderzoeker weet dat er allerlei beperkingen en randvoorwaarden kleven aan de berekende resultaten. Die worden dan ook uitvoerig toegelicht in voetnoten en toelichtingen, vaak in specialistisch jargon. Weinig mensen nemen deze informatie ter harte, want eigenlijk vergroot dat de onzekerheid alleen maar. Dit gebrek aan inzicht en achtergrond leidt tot een interessant fenomeen: angstgevoelens door kansrekening. Dat is overigens één van de beïnvloedingsprincipes van Cialdini. Een grote kans dat je niet bij de gelukkigen hoort (of een kleine kans om erbij te horen) geeft onrust. Je angst daarvoor doet je vaak besluiten om iets te doen of achterwege te laten, ook als dat eigenlijk niet nodig is. Ofwel: grote kans op negatieve ervaring geeft angstgevoel. Omgekeerd leidt grote kans op een positieve ervaring trouwens vaak tot overmoed (en beide leiden tot teleurstelling).

Tijdens deze corona-epidemie speelde dit effect ook, en werd in de officiële communicatie veelvuldig gebruikt. Door steeds maar grote getallen over infecties, ziekenhuisopnames en sterftegevallen te delen, ontstond een algemeen buikgevoel over de grote kans dat het Coronavirus ook voor jou schadelijk zal zijn (“geen twijfel mogelijk”). Dat was meteen de reden dat tot drastische maatregelen kon worden overgegaan, ook al vond het publiek dat niet fijn.
Zou de communicatie genuanceerder zijn geweest, bijvoorbeeld met meer relatieve in plaats van absolute waarden (18.000 op 18 miljoen is slechts 0,1%), en zouden de (bekende) contexten en onbekende factoren (onzekerheden) nadrukkelijker zijn gedeeld, dan zou het volk veel minder angst gedreven zijn geweest. Maar ja: angst is de belangrijkste sleutel om mensen een bepaalde richting op te duwen.

Werken met getallen geeft sowieso een gevoel van almacht en een indruk van compleetheid. Grafieken en tabellen doen het altijd goed in presentaties, zeker als je het gevoel krijgt daarmee grip op een complexe situatie te krijgen. Het gebruik van stoplichtkleuren geeft daarbij een dramatisch effect: we willen rode lijnen en oppervlaktes vermijden. Door met schalen te spelen kunnen grafieken (on-)bedoeld een schrikbarend signaal afgeven. Want kansgetallen dwingen nu eenmaal tot actie, paradoxaal genoeg juist als de kans niet extreem groot of klein is, maar ergens tussen de 30% en 70%.
Dat speelt ook bij “procenten van procenten”. Bijvoorbeeld: het aantal van 1250 bezette IC-bedden is op een bevolking van 18 miljoen heel erg klein. Je zou je kunnen afvragen of er bij een groeiende bevolking met meer welvaartsziektes niet juist meer bedden moeten zijn. Op het aantal positief geteste mensen (ca. 50.000) is dat aantal nog steeds weinig. Ten opzichte van het aantal opgenomen mensen (ca. 2000) wordt het een serieus getal, en baart het ineens zorgen dat zoveel patiënten op de intensive care afdelingen belanden.
Ander voorbeeld is het effect van maatregelen, waarbij de indruk bestaat dat beschermingspercentages optellen. Bij bescherming gaat het om de kans dat je geïnfecteerd wordt. Als in een normale omgeving mensen zich redelijk houden aan de algemene hygiëneregels, niet te dicht op elkaar komen voor langer dan 10 minuten, en in die situaties mond-neusbescherming dragen, dan heeft een mondkapje dat niet 60% maar 80% filtert niet zo dramatisch veel effect als de “80%” insinueert. In bijzondere situaties maakt het wel uit, zoals in de zorg, bij heel veel kortdurende ontmoetingen (zoals de postbesteller, niet de geadresseerde), of in omgevingen met relatief veel kwetsbare mensen.

Intermezzo: (Schijn-)Nauwkeurigeheid

In de foutenleer geldt dat een getal nooit nauwkeuriger is dan de helft van de laatste decimaal. Voorbeeld: de werkelijke waarde van 20,5 ligt ergens tussen de 20,0 en 21,0. Getallen als “70,4%” insinueren een nauwkeurigheid die wellicht past bij de dataset, maar niet bij de realiteit die die dataset poogt te weerspiegelen. Als ik ergens een totaal van 111 tel, dan ligt de werkelijkheid waarschijnlijk tussen 105 en 115. Dan zie ik hoe zonder blikken of blozen een aantal sterfgevallen wordt gemeld, met de notitie dat nog niet alle data verzameld of vertraagd is, en dat niet iedere instantie op dezelfde manier telt. Maar het getal wat werd genoemd blijft rondzingen, en voedt onze angsten. Hoe groter het getal, hoe sterker dat effect. Vandaar ook dat men liever absolute getallen presenteert dan relatieve, want die zitten altijd tussen 0% en 100%, als het tenminste goede en zinnige getallen zijn.

We kennen allemaal de uitspraak over een glas water dat door de èèn als half-vol wordt gezien, en door de ander als half-leeg. Beiden zien hetzelfde voorwerp, maar houden er een andere indruk aan over. Dat is bij kansrekening en statistiek niet anders. Een kans ligt altijd tussen 0 en 1 (of tussen 0% en 100%). Een beetje Omdenken zegt dan bijvoorbeeld dat als x% van alle besmette mensen daarna ook ziek wordt, dat (100-x)% dus nergens last van heeft. En het aantal besmettingen is op elk moment sowieso altijd maar een deel van de totale bevolking. Hier concrete getallen noemen is overigens zinloos omdat ze steeds wijzigen door nieuwe virusvarianten, maar ook omdat de bevolkingspopulatie door ziekte en sterfte continu verandert. Bovendien maakt het voor jou persoonlijk veel verschil tot welke leeftijdscategorie je behoort, hoe je conditie is en hoe je ervoor zorgt lichamelijk en mentaal weerbaar te blijven. Dat is helaas niet meer in kansen of statistieken uit te drukken.

In hoeverre kun je op de gepresenteerde getallen vertrouwen?
Getallen zijn wat ze zijn, met al hun onzekerheden en kanttekeningen. In besloten onderzoek worden resultaten nog wel eens gefalsificeerd, maar met zoveel openbaarheid en zoveel betrokkenen is dat bij de pandemie niet te verwachten. Waar je wel alert op mag zijn is wát er eigenlijk wordt gepresenteerd, en hoe die presentatie gebruikt wordt als rechtvaardiging van maatregelen. Wat je ook moet weten: het is de eerste keer in de geschiedenis dat op deze schaal wereldwijd gegevens worden verzameld, gedeeld en bewerkt. Daar hebben we eigenlijk niet zoveel ervaring mee. Het gaat nu écht over grote getallen met heel veel variabelen. Helaas is er wereldwijd namelijk een enorme diversiteit in welvaart, gezondheidszorg, leefomstandigheden, voedingspatronen, kwetsbaarheid, leeftijdsopbouw en ga zo maar door. Ook de aanpak van de pandemie is op nationaal niveau verschillend, en vaak ook nog eens afhankelijk van politieke of industriële belangen. In Nederland hebben we misschien enige dataverwerkingsprocessen redelijk op orde, maar we laten ons ook weer sturen door wat in het buitenland gebeurt. We leren gaandeweg hoe we gegevens moeten verwerken en interpreteren (en dat is ook heel begrijpelijk en normaal). Neem als voorbeeld de registratie van oorzaak van sterfte: pas na 3 jaar begint men onderscheid te maken tussen overlijden dòòr en overlijden mét corona (hetgeen ook betekent dat de gegevens tot nu toe moeilijker te interpreteren zijn).

Statistiek is bij uitstek een gereedschap om nog niet ontdekte mogelijke verbanden te vinden. Eventuele causaliteit moet dan wel goed onderzocht en bewezen worden. Dat gaat niet in een paar maanden tijd. Meestal gaan daar jaren overheen van vele onderzoeken die de validiteit van data en gegevens steeds opnieuw kritisch bekijken. Wat je dus nooit moet doen is op basis van buikgevoel of veronderstelde uitkomsten een statistisch onderzoek NIET verrichten. Als je geen bewijs hebt dat vegetariërs in het algemeen minder kans hebben op infecties, wil dat niet zeggen dat je voedingsgewoonten als irrelevant mag beschouwen bij een nieuwe ziekte als Covid-19. Je mag niet stellen dat het vaccin geen bijwerkingen heeft omdat dit bij kankerpatiënten niet zo waargenomen is, om over de lange termijn effecten maar te zwijgen. Je kunt als wetenschapper ook niet de positieve uitwerkingen 100% toeschrijven aan een vaccin, en alle bijwerkingen vooraleerst ontkennen: in beide gevallen moet je gezonde twijfel houden, want dat is de basis van goede wetenschap. Er spelen zoveel mèèr factoren mee. Het filteren van het soort onderzoek al naar gelang de gehoopte uitkomst is de grootste fout die men maken kan. Statistiek geeft goede indicaties, maar je moet wel open staan voor het onverwachte, want anders leidt statistiek tot tunnelvisie.