Vervolg op Project Maestro deel 1

Koppelen van meerdere databronnen

Project Maestro is gemaakt om data aan te passen (data prep) en om meerdere databronnen aan elkaar te koppelen (data blend). Dit combineren van databronnen kan op verschillende manieren. Je kunt data stapelen, zogenaamde Unions. En je kunt data Joinen. Beiden is mogelijk met tabellen binnen dezelfde bron of met verschillende bestanden.

Joinen binnen bron

Als eerste gaan we 2 tabellen joinen met elkaar. Als voorbeeld nemen we weer het Superstore Excel bestand, maar bv een MS-SQL server omgeving is natuurlijk ook optie. We hadden al de Orders, en nu gaan we de Returns joinen, zodat we kunnen zien welke orders zijn terug gestuurd. In Maestro hebben we Superstore al als bestand en we zien de 3 sheets (net zoals je gewend bent in Tableau). Sleep de sheet Returns naar de workflow. Je ziet nu 2 input bestanden. Ga op Order staan, klik en sleep je muis naar Returns. Je krijgt nu de opties New Join en New Union. Kies de eerste optie. Nu wordt het echt mooi – zie image hieronder:

  • Maestro heeft zelf al bedacht op welke velden je kunt joinen, maar dit kun je natuurlijk ook zelf bepalen – meerdere velden mogelijk
  • Vervolgens bepaal je grafisch hoe je kunt joinen dmv een Venn diagram – klik op de delen in de cirkels die je in je join wilt hebben
  • Het mooie is dat je direct het resultaat van je join ziet – in de Summary zie je precies hoeveel records uit Orders en uit Returns in je resultaat komen. Ook wordt er getoond wel deel wel en niet een match heeft opgeleverd – ook dit is wederom grafisch
  • In de Join Clauses staan de resultaten van de velden waarop je hebt gematcht. Klik op een Order ID en je krijgt een overzicht welke specifieke records hierbij behoren – zie Join Results

Joinen van 2 verschillende bronnen

We gaan nog een Excel bestand toevoegen aan de workflow. We willen graag de budgetten van de verschillende jaren, regio’s en categorieën koppelen aan de Orders en Returns. Je klikt op Add naast connections en selecteert je databron, in ons geval Superstore Budgetten (Excel bestand). Je ziet meteen voor welke jaren we budgetten hebben gemaakt. Als we de order dates van Orders en Returns bekijken, zien we dat de jaren niet overeenkomen, behalve 2014. Daarnaast hebben we geen Year of Order date, dus die maken we eerst aan. Dit kan door op Create Calculated Field te klikken – de rest werkt precies hetzelfde als in Tableau (in ons geval Year([Order Date])).

Voor het voorbeeld pas ik de budget jaren aan: 2011 laat ik staan, 2012 wordt 2015 etc. Beetje gek misschien om jaren aan te passen, maar ik wil laten zien hoe gemakkelijk je met de data kunt ‘spelen’. Als de jaren zijn aangepast, kunnen we nu een join op de 2 excel bestanden leggen. Nu kies je bij de Join Clauses zowel Year of Order date, Category en Region (dus 3 join velden). Klik in Venn diagram de juiste cirkels aan, en bekijk het resultaat. Je ziet in de Summary wat je nu wel en niet hebt gematcht. Klik op het unmatched deel en zie dat je 9 records uit Budget niet in de join resultaten hebt – in de Profile zie je dat het gaat om Year of Order date 2011, wat natuurlijk klopt in dit geval. We hebben nu een join gemaakt tussen 2 verschillende databronnen, dit geval Excelsheets, maar dat kunnen alle bronnen zijn waarmee Maestro kan connecten.

Binnenkort meer over Project Maestro met oa Unions