Het visualiseren van data is een krachtige manier om informatie over te brengen. Maar met dezelfde kracht kun je, bewust of onbewust, ook foute informatie overtuigend presenteren. Dit zijn 4 manieren om te liegen met datavisualisaties.
4 manieren om met data te liegen
“Al is een leugen nog zo snel, de waarheid achterhaalt hem wel.“
Nederlands gezegde
Een leugen is gemakkelijk, zeker als je data visualiseert. Ons brein is namelijk altijd op zoek naar visuele afwijkingen en onderliggende verbanden. Het gevolg: een heus mijnenveld voor de eerlijke data-analist. In deze blog neem ik je mee langs 4 manieren om met data te liegen, inclusief voorbeelden in een Tableau Public-story. Niet om je een effectieve leugenaar te maken, maar om je weerbaar te maken tegen list en bedrog. En om je tips te geven om zelf deze zonden niet te begaan.
1. Verstop een deel van de data
Misschien wel de makkelijkste manier om een vertekend beeld van de waarheid te schetsen is om een deel van de data buiten de visualisatie te laten. Hoe? Door de as van de belangrijkste meetwaarde niet op 0 te laten starten. Als je de as een beetje bijknipt, lijkt een klein verschil tussen meetwaarden ineens veel groter. In de visualisatie hieronder kun je goed zien hoe makkelijk je erin tuint.
In de linker visualisatie lijkt het alsof de productgroep technologie ongeveer twee keer zo goed loopt als de groepen meubels en kantoorspullen. Daar kun je als technologiemanager wel mee aankomen bij je baas! In de rechter visualisatie zie je echter dat het verschil in werkelijkheid ongeveer 10 procent is. Dat is nog steeds een verschil, maar een stuk minder groot.
2. Context weglaten
Een andere vorm van misleiding is het weglaten van context. Deze vorm misschien nog wel moeilijker te spotten, omdat er op het eerste gezicht helemaal niets mis is met de visualisatie zelf. Alleen: kun je op basis van wat je ziet een conclusie trekken, of heb je daar meer informatie voor nodig? Deze manier van misleiding zie je maar al te vaak voorbij komen in het nieuws en op de sociale media. Er wordt een getal gedeeld of een vergelijking gemaakt zonder context, en voordat we het doorhebben, hebben we ons oordeel al gevormd.
Kijk hierboven (2. Leave out context) bijvoorbeeld eens naar de linker visualisatie van het aantal bestellingen dat teruggestuurd is. Het aantal terugzendingen van kantoorspullen is wel anderhalf keer zo hoog als dat van meubels of technologie! Toch eens een praatje maken met de verantwoordelijke manager… Maar in de rechter visualisatie zien we dat het aantal bestellingen zelfs drie keer zo hoog is. Die andere productgroepen worden dus relatief twee keer zo vaak teruggestuurd. Dat kun je alleen uit de linker visualisatie niet opmaken.
3. Sjoemelen met de afmetingen van de visualisatie
Je hoeft je data niet buiten de visualisatie te laten om het te verstoppen! Stel je maar eens een lijndiagram voor. Of de lijn naar boven of beneden gaat, is natuurlijk afhankelijk van de onderliggende waarden. Maar hoe steil die stijging of daling verloopt, is afhankelijk van de verhoudingen tussen de X- en de Y-as. Dat zegt dus niets inhoudelijks over de getoonde ontwikkeling, maar toch beïnvloedt het wel je interpretatie ervan. Een lijn die sterk stijgt ziet er indrukwekkender uit dan een nagenoeg vlakke lijn.
Dus als je indruk wil maken met je winstontwikkeling in de afgelopen jaren, moet je ervoor zorgen dat de as waarin de tijd wordt uitgedrukt, zo kort mogelijk is, en de winst-as zo lang mogelijk. Dat kan door een van de assen langer te maken dan noodzakelijk, of door de afmetingen van de visualisaties aan te passen. Andersom: als je wil overbrengen dat het met een zorgelijke ontwikkeling wel meevalt, kun je de tijd-as rekken, en de stijging van lijn afvlakken door wat extra ruimte in de visualisatie te creëren.
4. Misleidend gebruik van visuele suggesties
Correlatie maakt nog geen causatie. Dat weet iedereen wel. En toch is het gemakkelijk om te vallen voor zulke visualisaties. Zo zit ons brein nu eenmaal in elkaar. Door het samen presenteren van verschillende feiten in een visualisatie, wordt er al een verband tussen gesuggereerd. En als de informatie dan ook nog eens visuele overeenkomsten vertoont, is een foute conclusie al snel getrokken. “De ene lijn gaat omhoog en de andere ook? Oh, dat zal dan wel met elkaar te maken hebben.”
Tyler Vigen maakte daar gebruik van toen hij een website samenstelde met visualisaties waarin twee ontwikkelingen getoond worden die sterk lijken te correleren. Sommige ervan zouden zelfs de meest gangbare statistische toetsen doorstaan. Maar in alle gevallen zijn de vergelijkingen te absurd om serieus genomen te worden, zoals in het voorbeeld hieronder waarin een verband lijkt te bestaan tussen het aantal mensen dat jaarlijks verdrinkt in een zwembad en het aantal films waarin acteur Nicolas Cage speelt. Dat kan toch haast geen toeval zijn?!
4 manieren om niet met data te liegen
Natuurlijk gebruik jij geen van deze manieren om met data te liegen. Maar toch is het goed om je bewust te zijn van deze misleidende visualisatiesmethodes. Zo voorkom je dat de gebruikers van je dashboards niet de verkeerde aannames doen, en trap je er zelf niet in als je deze snode trucs zelf in het wild tegenkomt. Dus tot slot nog 4 tips om eerlijke en begrijpelijke visualisaties te maken:
- Informatie achterhouden hetzelfde als liegen
- Context is key
- De assen zijn net zo belangrijk als de waarden daartussen
- Visualiseer waarden alleen samen als ze met elkaar te maken hebben
Ik hoop dat je wat van deze blog geleerd hebt. Meer lezen over Tableau, datavisualisaties of de wetenschap daarachter? Klik hier voor het complete overzicht van al mijn blogs, of bekijk mijn profiel op The Information Lab of op Tableau Public.
Bekijk onze andere blogs over Tableau, Alteryx, and Snowflake.
Werk samen met een van onze consultants en haal alles uit je data.
Neem contact met ons op, wij helpen je graag!