Azure Data Platform – Medaille aanpak
Analytics toepassingen zijn er in veel vormen, ook het onderliggende data platform kan op vele manieren worden ingericht. Om meer structuur en houvast aan te brengen maken wij vanuit Powerdobs gebruik van een aantal referentie architecturen en gebruiken we tijdens implementaties de medaille aanpak. In deze blog gaan we dieper in op deze medaille aanpak.
Het woord medaille zegt het al, wij onderkennen in een data platform drie lagen, een bronzen, zilveren en een gouden laag. Omdat data niet vanzelf goud wordt, lichten we aan de hand van een voorbeeld toe wat er in de verschillende lagen moet gebeuren.
We gaan in ons voorbeeld een data platform creëren voor een autobedrijf. Het bedrijf verkoopt auto’s van Toyota en Lexus. De data van Toyota ziet er anders uit dan de data van Lexus. We willen gaan rapporteren over samengevoegde Toyota en Lexus data in hetzelfde format.
Bronzen laag – “Raw”
Als we kijken naar de data die het autobedrijf verzamelt, dan hebben beide merken systemen waarin wordt opgeslagen welke auto’s in voorraad staan, welke auto’s verkocht zijn en daarnaast zijn er ook gegevens bekend over klanten. Deze bestanden zijn echter in verschillende formaten opgeslagen en de structuur van de bestanden verschilt per merk.
Als eerste gaan we deze data ophalen uit de systemen van de dealers en één op één kopiëren naar de opslaglocatie in ons data platform. Dit wordt de bronzen laag. In de bronzen laag wordt de onaangepaste data – dit noemen we ‘raw data’ – vanuit de bron gekopieerd naar een opslaglocatie in het data platform. Elk bestand wordt een losstaande tabel.
In de bronzen laag kan optioneel historie bijgehouden worden. Historie zorgt ervoor dat het mogelijk wordt om te zien wat de stand van een tabel op een bepaalde dag terug in de tijd was.
Zilveren laag – “Cleansed and Conformed”
Na het importeren van de verschillende bronsystemen willen we onze losstaande tabellen begrijpbaar en compleet maken. Dit doen we in de zilveren laag.
We gaan tabellen maken waarin de data van Lexus en Toyota aan elkaar gekoppeld wordt. Als in het verkoopbestand van Toyota bijvoorbeeld in een kolom staat opgeslagen wat het model en de kleur van de auto is, en dit staat bij Lexus in twee kolommen, dan uniformeren we dit in de zilveren laag. Onbekende waarden maken we herleidbaar en dit valideren we met de business. Bijzondere tekens of overbodige spaties worden verwijderd.
Als de zilveren laag compleet is hebben we volledige en uniforme tabellen voor het autobedrijf in plaats van tabellen per merk.
Gouden laag – “Curated”
Op deze zilveren laag voegen we business logica en berekeningen toe. Zo ontstaat de gouden laag.
Business logica kan bijvoorbeeld een indicator zijn die wordt toegevoegd wanneer een auto langer dan 30 dagen op voorraad staat. Een voorbeeld van een berekening is de marge die op de verkoop van een auto behaald is.
De gouden laag is de data die in een reporting tool (bijvoorbeeld Power BI) aan de eindgebruikers getoond wordt.