Inmiddels weet je door onze eerste blog over Microsoft Fabric dat Fabric een dataplatform is. Maar wat is zo’n dataplatform eigenlijk? En hoe zit het met datawarehouses en datalakes? Daar besteden we in deze blog aandacht aan.
Wat is een dataplatform?
Een dataplatform is een oplossing waarmee je data kan verzamelen, transformeren en verrijken. Het is niet gebonden aan een tool of product. Vergelijk het met een gereedschapskist: in een dataplatform worden verschillende tools en functionaliteiten samengevoegd om in alle databehoefte te voorzien. Is het dan hetzelfde als een datawarehouse? Nee, een traditioneel datawarehouse kan wél onderdeel zijn van een groter dataplatform. Een datawarehouse is een centrale plek waar gestructureerde data samenkomt. Een dataplatform faciliteert ook andere oplossingen, zoals Internet of Thing (IoT), streaming analytics en AI. Dit kunnen toepassingen zijn gebaseerd op minder- of niet gestructureerde bronnen. Gestructureerde bronnen zijn bijvoorbeeld databases. Niet-gestructureerde bronnen kunnen tekstbestanden zijn zoals Word (.docx) of PDF (.pdf) maar ook chat-, audio of videoberichten.
Zo ziet een data warehouse eruit:
Van datawarehouse naar datalakes
Een traditioneel datawarehouse kan niet goed met ongestructureerde informatie overweg. Maar deze informatie kan voor een analyse heel waardevol zijn. Om deze ongestructureerde data op te slaan en te verwerken, waren nieuwe technologieën nodig. Zo ontstonden de datalakes. Dit zijn grote verzamelbakken waar gestructureerde en niet-gestructureerde informatie samenkomt. De technologie onder een datalake zorgt dat oplossingen enorm schaalbaar zijn en grote hoeveelheden data verwerkt kunnen worden (daar komt de term Big Data vandaan). Maar omdat data op zo’n grote schaal verzameld wordt en structuur vaak ontbreekt, kwamen er weer nieuwe uitdagingen. Het analyseren van niet-gestructureerde data blijken niet zo makkelijk te zijn. Datalakes ondersteunen geen transacties en ook de datakwaliteit kan niet geborgd worden zoals in een datawarehouse.
Zo ziet een datalake eruit:
Datalakehouses: een combi van alle voordelen
Om een datalake goed te kunnen gebruiken, ontstond de behoefte aan de doorontwikkeling van datalakes. Zeker op het vlak van datamanagement. Een deel van de oplossing komt door het combineren van de voordelen van een datawarehouse en een datalake en dat noemen we - je verwacht het niet - een datalakehouse. Een datalakehouse zorgt ervoor dat de datamanagement-functionaliteiten, zoals we die bij datawarehouses kennen, ook beschikbaar komen over een datalake heen. Fabric omarmt het concept van een datalakehouse. Hiermee kunnen we binnen Fabric datamanagement voeren over gestructureerde en niet-gestructureerde data. En dat ook nog eens op een enorm schaalbaar dataplatform.
Zo ziet een datalakehouse eruit:
Alles op een rijtje
Oké, veel termen en veel ontwikkelingen. Laten we alles op een rijtje zetten. Een dataplatform is een oplossing om data te verzamelen, te transformeren en te verrijken. Zie het als een grote gereedschapskist om met data aan de slag te gaan en jou te helpen bij elke stap van de datareis. Door het toepassen van het datalakehouse-architectuur kunnen we datamanagement voeren over zowel gestructureerde als niet-gestructureerde data binnen het dataplatform. En dat is best wel gaaf!
Zelf je dataplatform samenstellen
Microsoft Fabric is een out-of-the-box dataplatform. Maar het is niet de enige in zijn soort. Databricks biedt bijvoorbeeld ook een vergelijkbaar dataplatform aan. Wat de verschillen tussen deze platformen zijn, behandelen we in een van onze volgende blogs. Mocht je behoefte hebben om zelf je gereedschap te kiezen, kan dat natuurlijk ook. Je kunt namelijk zelf shoppen binnen de cloud-omgeving naar keuze om je eigen platform samen te stellen. Deze aanpak staat bekend als ‘best of breed’. Je selecteert de bouwblokken die het beste aansluiten bij wat jouw situatie nodig heeft. Dat kan met specifieke use cases voordelen opleveren. Het voordeel van Fabric is wel dat je al het gereedschap in één geïntegreerde omgeving hebt. Wel zo prettig voor de gebruikerservaring.
Wil je meer weten over dataplatformen en Microsoft Fabric? Neem dan contact op met ons of volg ons en mis de volgende Fabric-blog niet.