Dataflows Gen 2 en Data Pipelines in Microsoft Fabric
Dataflows Gen 2 is een nieuwe tool die binnen Data Factory in Microsoft Fabric gebruikt wordt om data te ontsluiten en te bewerken. Maar, wanneer is het nuttig om de Gen 2 dataflows te gebruiken? Het alternatief hiervoor zijn namelijk de Data Pipelines die ook beschikbaar zijn binnen Azure Data Factory en Microsoft Fabric. In deze blog ga ik verder in op deze vraag.
Dataflows Gen 2
Dataflows Gen 2 is een doorontwikkeling op Dataflows Gen 1 die al voor het Fabric tijdperk te gebruiken was in Microsoft Azure. Kortgezegd is het een ‘cloud based’ data integratie en transformatie tool. Het maakt gebruik van Power Query en dat vergroot de toegankelijkheid voor de ‘minder technische gebruikers’. Met Dataflows is het mogelijk om herbruikbare transformatielogica te ontwikkelen. Deze logica brengt data vanuit een bron (er worden al meer dan 80 bronnen ondersteund), getransformeerd, naar een Lakehouse, Azure SQL database, Azure Data Explorer, Azure Synapse Analytics, etc.
De Fabric versie van Dataflows, Dataflows Gen 2, heeft vele voordelen ten opzichte van Dataflows Gen 1. De belangrijkste zijn:
- Het automatisch opslaan en publiceren van wijzigingen op de achtergrond.
- Beschikbaarheid van data bestemmingen.
- Uitgebreide monitoringsmogelijkheden.
- Integratie met Data Pipelines.
- Betere schaalbaarheid van de gebruikte computing power.
Één aandachtspunt waar je rekening mee dient te houden is dat Fabric op dit moment nog geen gateway ondersteunt om connecties te maken naar on premise oplossingen, dit staat op de roadmap voor Q1 2024 (zie release plan) . Tot die tijd kun je met de Dataflows Gen 2 dus alleen connecties leggen met cloud applicaties, voor on premise connecties zul je nog moeten terugvallen op de Azure Data Factory connectie.
Data Pipelines in Microsoft Fabric
Een Data Pipeline binnen Fabric is de doorontwikkeling op een Pipeline uit Azure Data Factory. Het is een groep activiteiten die samen gebundeld is en in een vooraf bepaalde volgorde kan worden uitgevoerd of gescheduled. Een Data Pipeline kan bijvoorbeeld een Dataflow en een stored procedure uitvoeren, en vervolgens, om de activiteit af te ronden, een e-mail versturen.
Het grote voordeel van Data Pipelines in Fabric ten opzichte van Pipelies in Azure Data Factory is dat deze volledig geïntegreerd zijn met het verenigde dataplatform in Fabric. Dit bevat onder andere het Lakehouse en Datawarehouse. Hierin is het niet meer nodig om elke datalaag persistent op te slaan. Dit kan nu ook virtueel.
Wat gebruik je wanneer?
In Microsoft Fabric worden Dataflows en Data Pipelines dus complementair aan elkaar gebruikt. Dataflows zijn bedoeld voor datatransformatie. Data Pipelines worden gebruikt om de volgorde waarin processen worden uitgevoerd te bepalen en om activiteiten aan te roepen of in te plannen.
Mocht je vragen hebben over het bovenstaande of wil je de Dataflows en Data Pipelines in actie zien, laat het ons dan even weten.