Iedereen weet inmiddels wel dat Tableau een geweldige tool is om je data te zien en begrijpen. Met de recente ontwikkelingen in versies 9 en toekomstige versie 10 gaat het vooral om het data aspect van de visie ‘see and understand your data’. Tableau erkent dat je data niet altijd meteen opgeschoond, opgeslagen in een data warehouse of in een geschikt formaat voorhanden is. Een van de eerdere ontwikkelingen in die richting zijn gekomen in versie 7.0 waar Tableau onder andere de Tableau Data Server heeft geïntroduceerd als een manier om de hele organisatie te laten connecteren met data, ongeacht of ze de juiste drivers hadden geïnstalleerd of überhaupt wisten waar de data zich bevond.

Tableau Data Server v2

Vandaag de dag ben ik nog steeds erg blij met de Data Server. Het hebben van een centrale data repository, altijd up to date, altijd snelle TDEs is gewoon geweldig. Het is de hoeksteen van de ‘weggooi analyse’ waar ik gewend aan ben geraakt. Tenslotte, als je vragen zo snel kunt/gaat beantwoorden dat je niet meer de noodzaak hebt om alles telkens op te slaan, dan moet het wel altijd snel en betrouwbaar werken.

Maar de Data Server heeft altijd een belangrijk gebrek gehad… welke dataset ga ik gebruiken? Ik zeg dat het een gebrek van de Data Server is, maar dat is het eigenlijk niet, het is een gebrek van mensen die hun dataset niet een fatsoenlijke en betekenisvolle naam geven. Maar dat is waar een tool belangrijk wordt, niet dan? Ondersteunen op die punten waar mensen zelf fouten maken of het niet zo goed doen.

 

Dus daarom is hier mijn wenslijst voor de komende 18-24 maanden Tableau ontwikkeling, dezelfde ontwikkelcyclus waarin we Tableau Server, LOD calculaties en TDE’s hebben gekregen…

Maak het selecteren van Data Intuïtief, Smart of beide!

Tot dusver is was het antwoord op de vraag welke data te selecteren, het bekijken van de onderliggende data in de tabel… maar waarom? Als in de Tableau wereld iemand beweert dat de beste manier om data te analyseren  met tabellen is, dan zal die de volgende reactie krijgen:

Snel inzicht, verkennen en communiceren van data behoeft visuele presentatie
Vrij geïnterpreteerd van Stephen Few

Dus als het erop aankomt om data te selecteren, waarom moeten we dan weer terugvallen op een klassieke tabel presentatie? Er zijn een paar overduidelijke redenen, waarvan een aantal vooral concentreren op het feit dat je vertrouwen moet kunnen hebben in de onderliggende data die je wilt analyseren. Maar ik denk dat dit ongeveer hetzelfde is als het argument dat door mensen gemaakt wordt voor het gebruik van tabellen in plaats van visualisaties. Je kunt tenslotte niet een hele tabel met ruwe data zien en begrijpen, dus hoe kun je deze dan volledig vertrouwen?

De meeste gangbare oplossing die ik tot dusver ben tegengekomen, is dat de tabel en visuele hulpinformatie (metadata) wordt samengevoegd in een scherm om een beter inzicht te geven in een doorgaans bijna oneindig lijkende scroll-bare tabel. Bijvoorbeeld Trifacta Wrangler visualiseert de distributie/verdeling van dimensionale waarden in de data.

Trifacta

Maar is dit nu een goede representatie van hoe mensen denken wanneer ze de data selecteren waarmee ze gaan werken?

Wanneer ik bezig ben met analyseren van data in Tableau dan start ik met een vraag, bijvoorbeeld “Hoe zijn de verkopen gegaan in een bepaalde periode?” Ik dubbelklik de [Sales] meetwaarde en Tableau toont met het totaal van de saleswaarde, dan dubbelklik ik [Order Date] en Tableau visualiseert vervolgens de sales per Order Date (hoogste niveau) in een lijngrafiek. Mijn gedachten en de daaruit volgende acties liepen synchroon, dat is een fijne beleving.

Start met een vraag

Dus waarom kun je bij het selecteren van data ook niet met een vraag beginnen? Niet “kun je raden hoe je collega die interessante dataset heeft genoemd” maar “Wat wil je graag analyseren?”.

Met andere woorden: laat me de meetwaarden, dimensies en waarden selecteren waarin ik geïnteresseerd ben, en dan al het werk voor dataset selectie, pivoting, filtering, en samenvoegen/union laten uitvoeren.

Dus hoe zou de Data Server 2.0 eruit kunnen zien? Hoe zou het kunnen werken?  Laten we beginnen met het stellen van een vraag:

Data Server Search 1

What would you like to analyse? – Wat zou je willen analyseren?

En ik antwoord met de vraag:

Data Server Search 2

Sales in the South, West and Central regions from 2012 to 2015 –
Verkoop in de zuidelijke, westelijke en centrale regio’s voor 2012 tot 2015

Het beantwoorden met natuurlijke taal (Natural Language), of iets wat dicht in de buurt van natuurlijk taal komt is misschien een beetje vergezocht, maar laten we eens kijken hoe de zin kan worden opgeknipt:

Smart Data Server

Weet de Tableau Data Server hoe te reageren op de zin die ik heb ingevoerd, om zodoende data te kunnen selecteren? Tuurlijk! We hebben de Data Server verteld waar alle data is, het weet de metadata van elke connectie (of kan deze opzoeken). We willen in onze dataset de kolommen genaamd ‘Sales’, ‘Region’ en ‘Date’… makkelijk dus! Sterker nog, de kolommen hoeven niet eens per se ‘Region’ of ‘Date’  te heten, we hebben alleen een tekst (string) kolom nodig die de waarden ‘South’, ‘West’ en ‘Central’ bevat. Op eenzelfde manier hebben we ook alleen een datum/tijd veld nodig met een bereik van 2012 tot 2015. Op dit moment is het enige wat de Data Server mist een manier om deze dimensionale waarden te verzamelen.

Wens

Dus dit is mijn oproep, mijn Tableau wishlist voor 2016 en verder. Maak data selectie & preparatie niet alleen eenvoudig maar ook smart!

Dit idee is een voortgekomen uit mijn recente werkverleden. Tussen het afstuderen aan de Universiteit van York en het starten bij The Information Lab, had ik het genoegen om te werken bij YorkMetrics. Hun Inflexsion semantic engine en Termscape applicaties die me tot deze inspiratie brachten, zijn momenteel in besloten beta trials. Geïnteresseerd? Je kunt ze een email sturen via info@yorkmetrics.com.


Originele blog van Craig Bloodworth van 27 januari 2016, The Information Lab UK.
Prefer to read original blog in English?