Blogs | InSpark

Een eerste introductie van Microsoft Fabric

Geschreven door Erwin de Kreuk | Jul 16, 2024 8:38:54 AM

Microsoft Fabric is sinds 15 november 2023 algemeen beschikbaar, zo maakte Microsoft bekend op Microsoft Ignite. InSpark is een van de twee Microsoft partners met de status Feature Partner in Nederland,  die al met dit platform hebben gewerkt in een succesvolle pilot. Wij zijn daar erg trots op. Ik ben benieuwd naar de nieuwe ontwikkelingen die eraan komen. Je kunt ze volgen via deze link.

Microsoft Fabric is een alles-in-één analyse-oplossing voor bedrijven die alles omvat; van gegevensverplaatsing tot data science, real-time analyse en business intelligence. Het biedt een uitgebreide reeks diensten, waaronder data lake, data engineering en data-integratie en dat allemaal op één plek.

Microsoft Fabric verandert radicaal de manier waarop organisaties gegevens en inzichten beheren. Het stelt elke persoon in jouw organisatie in staat om sneller te innoveren door inzichten te gebruiken vanuit Microsoft 365-apps, zoals Microsoft Excel en Microsoft Teams.

Microsoft Fabric

Microsoft Fabric is een end-to-end, op SaaS gebaseerd, uniform analyseplatform dat is ontworpen om organisaties te helpen bij het beheren en benutten van hun gegevens. Het brengt verschillende gegevensbronnen en analysetools samen in één geïntegreerd product. Microsoft Fabric maakt gebruik van technologieën zoals Azure Data Factory, Azure Synapse Analytics en Power BI, die allemaal al onderdeel zijn van het Microsoft Azure-ecosysteem.

Met Fabric kunnen zowel dataprofessionals als eindgebruikers profiteren van de mogelijkheden van hun gegevens. Het biedt een gecentraliseerde omgeving waarin gegevensbronnen kunnen worden geïntegreerd, getransformeerd en beheerd.

Belangrijkste pijlers:

  • Compleet analyseplatform
  • Gericht op een open en centraal Data Lake
  • Geeft elke Office-gebruiker meer mogelijkheden
  • Aangedreven door AI

OneLake

OneLake is een belangrijk onderdeel van Microsoft Fabric en fungeert als een data lake-as-a-service-oplossing. Het biedt organisaties de mogelijkheid om datasilo’s te vermijden en gegevens centraal op te slaan en te beheren zonder dat ze zelf een data lake hoeven te bouwen of te onderhouden. Net zoals OneDrive dient als een cloudopslagplatform voor bestanden, functioneert OneLake als een dataopslagplatform voor gegevens.

Met OneLake wordt automatisch een data lake-provisioned binnen elke Microsoft Fabric-tenant, zonder dat er extra infrastructuurbeheer nodig is. Dit betekent dat gebruikers direct toegang hebben tot een schaalbaar en georganiseerd data lake zonder dat ze zelf de inrichting en beveiliging ervan hoeven te regelen.

Lakehouse

Een belangrijk onderdeel in de OneLake is het Lakehouse. Het Lakehouse is een concept dat verwijst naar een geïntegreerde aanpak van gegevensopslag en -verwerking, waarbij gestructureerde en ongestructureerde gegevens worden opgeslagen in een Data Lake en worden benaderd alsof ze zich bevinden in een traditionele relationele database.

Binnen een Lakehouse worden gegevens georganiseerd in bestanden, mappen en tabellen, waardoor een virtuele database wordt gecreëerd bovenop het data lake. Dit stelt gebruikers in staat om query’s en analyses uit te voeren met behulp van zowel de Spark-engine als de SQL-engine voor big data-verwerking. Het Lakehouse-concept maakt gebruik van technologieën zoals Delta Lake, een open-source project dat ACID-transacties (Atomicity, Consistency, Isolation, Durability) biedt voor betrouwbaarheid en consistentie bij het werken met grote datasets.

Een Lakehouse kan gegevens bevatten in verschillende formaten, zoals gestructureerde gegevens (bijvoorbeeld tabellen) en ongestructureerde gegevens (bijvoorbeeld bestanden). Deze gegevens kunnen worden georganiseerd in mappen binnen het data lake, waardoor gebruikers flexibiliteit hebben bij het beheren en structureren van hun gegevensbronnen.

Door het gebruik van een lakehouse kunnen organisaties profiteren van de schaalbaarheid en flexibiliteit van een data lake, gecombineerd met de mogelijkheden van traditionele relationele databases. Dit maakt geavanceerde analyses en verwerking van grote hoeveelheden gegevens mogelijk binnen de context van Microsoft Fabric.

Experience

Boven op deze OneLake zijn de meeste bekende experiences beschikbaar. Een experience is een indeling van diverse Artifacts t.b.v. een specifieke rol zoals een Data Engineer, Data Analist of Data Scientist. Je kan het ook als een soort rol gebaseerde ervaring zien. Een korte opsomming wat al deze losse experiences precies inhouden volgt hieronder:

  • Data Factory

Data Factory is een bekende en veelgebruikte data-integratieworkload binnen Microsoft Fabric. Het was al een belangrijk onderdeel van Azure Synapse Analytics en heeft nu een prominente plaats binnen het Microsoft Fabric-platform.

Data Factory stelt gebruikers in staat om data-integratiepipelines te bouwen en te beheren voor het uitvoeren van extractie, laden en transformatie (ELT) taken. Met Data Factory kunnen gebruikers gegevens extraheren uit verschillende bronnen, deze transformeren en vervolgens laden in de gewenste doelbestemmingen. Het ondersteunt zowel gestructureerde als ongestructureerde gegevens en biedt uitgebreide mogelijkheden voor datatransformatie en -bewerking.

  • Synapse Data Engineering

De Data Engineering experience binnen Microsoft Fabric is de omgeving waarin verschillende componenten samenkomen, waaronder het lakehouse, notebooks, data pipelines en Spark jobs. Deze experience is specifiek gericht op data engineering taken en biedt een krachtige omgeving voor het bouwen, transformeren en verwerken van gegevens.

Binnen de Data Engineering workload maakt Microsoft Fabric gebruik van de nieuwste versie van Synapse Spark, met ondersteuning voor Spark 3.3 en Delta 2.2. Synapse Spark is een krachtig en schaalbaar framework voor big data processing en analytische workloads.

Synapse Data Warehouse

De Data Warehouse experience binnen Microsoft Fabric biedt data engineers de mogelijkheid om een relationele laag te bouwen bovenop de fysieke gegevens in het lakehouse. Hierdoor kunnen ze deze gegevens beschikbaar stellen aan analyse- en rapportagetools via het T-SQL/TDS-eindpunt.

Met de Data Warehouse experience kunnen data engineers een virtuele datawarehouse-omgeving creëren waarin ze gegevens kunnen modelleren en organiseren met behulp van relationele concepten zoals tabellen, schema’s, en SQL-query’s. Dit stelt data-analisten in staat om gebruik te maken van de vertrouwde T-SQL-taal om toegang te krijgen tot en te werken met de gegevens in het lakehouse.

  • Synapse Data Science

De Data Science experience binnen Microsoft Fabric is specifiek ontworpen om data scientists een krachtige omgeving te bieden voor het bouwen, trainen en implementeren van machine learning-modellen. Binnen deze experience kunnen data scientists gemakkelijk nieuwe machine learning-experimenten, modellen en notebooks ontwikkelen.

Binnen de Data Science experience kunnen data scientists gebruikmaken van een breed scala aan tools en frameworks om machine learning-taken uit te voeren. Ze kunnen gebruikmaken van populaire programmeertalen zoals Python en R, evenals diverse Machine Learning packages.

  • Synapse Real Time Analytics

De Real Time Analytics experience in Microsoft Fabric biedt een uitgebreid portfolio van mogelijkheden voor end-to-end streaming-analyse. In de snelle zakelijke omgevingen van vandaag de dag is real-time analyse van cruciaal belang. Het stelt organisaties in staat om onmiddellijk te reageren op gebeurtenissen en trends terwijl ze zich voordoen, in plaats van achteraf te reageren op historische gegevens.

Met de Real Time Analytics experience kunnen gebruikers gegevens in real-time monitoren, analyseren en visualiseren om snelle en datagestuurde beslissingen te nemen.

  • Power BI (Business Intelligence)

Power BI blijft een krachtige tool voor business intelligence en data-analyse, maar met de integratie van Microsoft Fabric wordt het nog krachtiger en biedt het naadloze mogelijkheden om te profiteren van andere artifacts binnen Fabric, zoals het lakehouse en KQL Databases.

Een van de nieuwe functies in de Power BI workload is de Direct Lake-modus. Met deze modus kunnen zeer grote datasets rechtstreeks vanuit een data lake worden geanalyseerd in Power BI, zonder dat er een apart datawarehouse of lakehouse nodig is. Dit is mogelijk door parquet-bestanden direct te laden vanuit het data lake, zonder dat de gegevens geïmporteerd of gedupliceerd hoeven te worden in een Power BI-gegevensset.

De direct lake-modus biedt verschillende voordelen. Ten eerste stelt het gebruikers in staat om enorme hoeveelheden gegevens in Power BI te analyseren zonder de noodzaak van extra opslag of transformatiestappen. Hierdoor kunnen organisaties meer waarde halen uit hun bestaande data lake-infrastructuur en grote datasets in real-time analyseren.

Ten tweede zorgt de direct lake-modus ervoor dat gebruikers altijd toegang hebben tot de meest actuele gegevens in hun data lake. Omdat de gegevens rechtstreeks worden geladen vanuit het data lake, worden wijzigingen en updates in real-time weergegeven in Power BI-rapporten en visualisaties. In tegenstelling tot de performance van direct-query, is direct lake super snel. Je kan ook wel zeggen; direct lake levert dezelfde prestaties als data wordt geïmporteerd, zonder iets te importeren. Best wel gaaf!

  • Data Activator

De Data Activator experience is een aanvullende functionaliteit in Microsoft Fabric. Het is een no-code tool waarmee gebruikers automatische acties kunnen ondernemen op basis van gedetecteerde patronen of omstandigheden bij het veranderen van gegevens.

Met Data Activator kunnen gebruikers gegevens bewaken in zowel Power BI-rapporten als Event Hub-gegevensstromen. Ze kunnen drempelwaarden (thresholds) instellen voor specifieke gegevensmetingen of patronen en wanneer de gegevens deze thresholds bereiken, kan Data Activator automatisch de juiste actie ondernemen.

Enkele voorbeelden van mogelijke acties zijn: het waarschuwen van gebruikers via e-mail, het genereren van meldingen of het starten van Power Automate-workflows. Hierdoor kunnen gebruikers direct reageren op kritieke gebeurtenissen of afwijkingen in de gegevens en proactieve maatregelen nemen om de nodige corrigerende acties te ondernemen.

Het is een waardevolle toevoeging aan de real-time analytics mogelijkheden van Microsoft Fabric, waardoor gebruikers niet alleen inzicht krijgen in hun gegevens, maar ook proactief kunnen handelen op basis van de gedetecteerde patronen en trends.

Starten met Microsoft Fabric

Meer weten over Microsoft Fabric: https://aka.ms/fabric-docs-rta

Zelf aan de slag gaan met Microsoft Fabric: https://aka.ms/try-fabric

InSpark en Microsoft Fabric

InSpark is nauw betrokken geweest bij de ontwikkeling van Microsoft Fabric. Als partner van Microsoft hebben we actief samengewerkt met het ontwikkelteam van Fabric en hebben we input geleverd voor de functionaliteiten, mogelijkheden en verbeteringen van het platform. Hierdoor hebben we diepgaande kennis en inzicht in de mogelijkheden van Microsoft Fabric opgedaan en kunnen we klanten voorzien van advies op maat en best practices, gebaseerd op hun ervaring met de ontwikkeling van het platform.

InSpark ondersteunt klanten bij het identificeren van de juiste workloads en artifacts binnen Microsoft Fabric die aansluiten bij hun specifieke behoeften en doelstellingen. We helpen bij het opzetten van gegevensintegratie, data-engineering, datawarehouse, data science en real-time analytics oplossingen binnen Microsoft Fabric.