In deze blogpost lees je de zes belangrijkste uitdagingen waarmee je te maken kan krijgen bij het managen van een modern dataplatform. Tenslotte bespreken we ook wat je kan doen als jouw organisatie daar nog niet helemaal op is voorbereid.
1. Security
Een platform waarin veel data staan opgeslagen is een geliefd doelwit voor cybercriminelen. Het is dan ook belangrijk om te zorgen dat alleen de juiste mensen toegang krijgen tot je gegevens. Denk aan het toepassen van multi-factor-authenticatie (MFA) om er zeker van te zijn dat je de juiste persoon voor je hebt, het gebruik van dataclassificatie of het toekennen van autorisaties op aanvraag voor specifieke handelingen.
Maar met alleen het veilig inrichten van je dataplatform ben je er nog niet. Voor het voorkomen van datalekken en andere schade aan je IT-infrastructuur is het ook belangrijk om de activiteiten binnen je dataplatform 24 uur per dag te monitoren zodat verdachte gebeurtenissen worden herkend en opgevolgd. Denk aan inlogpogingen vanuit onbekende locaties, of een gebruiker die ineens heel veel data opvraagt. Bij InSpark werken we hierbij volgens het Protect, Detect & Respond-principe.
2. Governance
Naast veiligheid heb je als organisatie op het gebied van datamanagement te maken met verschillende soorten governance. Denk hierbij aan wetgeving zoals de AVG/GDPR, frameworks voor bepaalde certificeringseisen, of aan interne processen ter voorkoming van datavervuiling.
Aan de basis van governance staan drie pijlers:
- Mensen – medewerkers die op de juiste manier met data omgaan;
- Processen – de procedures die de medewerkers moeten volgen om op een verantwoorde manier om te gaan met onder andere dataopslag, -verwerking en -verwijdering;
- Technologie – de middelen die je medewerkers nodig hebben om de processen op een eenvoudige manier uit te voeren.
Data governance in combinatie met adequate securitymonitoring vormt de basis voor een compliant organisatie.
3. Monitoring van datastromen
Het doel van een dataplatform is natuurlijk om inzichten op basis van relevante data van de bron naar de eindgebruiker te krijgen. Op dit pad van bron naar gebruiker worden de data in veel gevallen nog verrijkt, en passeren ze dus verschillende tussenstations voordat ze bij de eindgebruiker belanden.
Een dergelijk pad wordt een pipeline genoemd, en het is belangrijk om te monitoren of de bewerkingen in een pipeline verlopen zoals verwacht. Het kan bijvoorbeeld voorkomen dat een database niet beschikbaar is. Dan wil je daar zo snel mogelijk van op de hoogte zijn om het op te lossen. Zeker als je bedenkt dat datagedreven oplossingen in toenemende mate een bedrijfskritisch karakter zullen krijgen.
Daarnaast is trendanalyse belangrijk, om afwijkingen in standaardprocessen te ontdekken. Denk aan een databron waarbij het laden van de data ineens twee keer zo lang duurt of waarbij de bestandsgrootte twee keer meer is dan normaal. Door dit actief te monitoren en te analyseren, is het mogelijk om snel actie te ondernemen in het geval van een afwijking in een bepaald onderdeel in de keten.
4. Schaalbaarheid van de oplossing
Iedereen die ervaring heeft met het opschalen van proof of concept naar productie weet hoe belangrijk de schaalbaarheid van álle onderdelen in de keten is. Wat je namelijk wilt voorkomen is dat één element de bottleneck wordt in de groei van datagebruik in je organisatie.
Een dataplatform moet daarom zowel omhoog als omlaag kunnen meeschalen met de vraag naar datagebruik binnen de organisatie. Moderne cloudproviders hebben legio datadiensten beschikbaar waar je uit kunt kiezen, wat het extra belangrijk maakt om een goede solution-architectuur op te stellen met een ervaren data-architect.
5. Cost management
Hoewel de schaalbaarheid van een dataplatform essentieel is om op de juiste manier aan de databehoeften van een organisatie te kunnen voldoen, kan dat zonder goed cost management ook leiden tot onverwacht hoge kosten. Zo kan het bijvoorbeeld voorkomen dat een cluster wel opschaalt, maar daarna niet meer mee omlaag schaalt of er kan een (menselijke) fout gemaakt worden in het clusterbeheer. Het is belangrijk om dit soort problemen te monitoren en waar nodig in te grijpen om vervelende verrassingen te voorkomen.
6. Lifecycle management
Veel werk op het gebied van infrastructuur wordt je tegenwoordig uit handen genomen door cloudproviders als Microsoft Azure. Er zijn echter nog steeds zaken waar je zelf voor moet zorgen, waarbij het belangrijk is te realiseren dat de ontwikkelingen op dit gebied elkaar razendsnel opvolgen. Je moet daar dus continu bovenop zitten om de verschillende onderdelen van je dataplatform te onderhouden, updaten en uitfaseren.
Is jouw organisatie hier klaar voor?
Het is verstandig om voor jezelf kritisch na te gaan of jouw organisatie in staat is om op een goede manier met alle bovenstaande punten om te gaan. Heeft je bedrijf de daarvoor benodigde capaciteiten en kennis in huis en kan het die ook op lange termijn waarborgen?
Is het antwoord op deze vragen ontkennend? Geen nood. In dat geval kan je namelijk kiezen voor een managed oplossing – waarbij je naast het dataplatform ook het beheer as-a-service afneemt. Managed Oxygen van InSpark is zo een oplossing.