De snelheid waarmee data door allerlei systemen worden geproduceerd neemt in hoog tempo toe. Daarbij wordt de variatie in de soorten data voor analyses ook steeds groter en traditionele on-premise databases hebben grote moeite om deze ontwikkelingen bij te benen. Traditionele dataplatformen zijn vaak gebaseerd op relationele databases en ze kennen mede hierdoor een aantal beperkingen. Bedrijven die op grote schaal met data willen werken, doen er dan ook verstandig aan om te kiezen voor een modern dataplatform dat gebruikt maakt van een data lake.
Typen data
Relationele databases zijn primair gemaakt voor het omgaan met gestructureerde data. Het grootste deel van de huidige exponentiële datagroei is echter toe te schrijven aan de groei van ongestructureerde data. Denk bijvoorbeeld aan mediabestanden zoals foto’s of video’s, oftewel ‘big data’.
Flexibiliteit
Daar komt bij dat het met traditionele dataplatformen lastig is om snel bij te sturen op veranderingen. Verandertrajecten omvatten namelijk vaak meerdere systemen en afdelingen, waarvoor vaak ook verschillende personen nodig zijn. Het gevolg is dat nieuwe innovaties aan je organisatie voorbijgaan door gebrek aan daadkracht en snelheid.
Neem bijvoorbeeld dure ETL-processen. Vanwege de complexe businesslogica neemt het toevoegen van nieuwe databronnen daarbij veel tijd in beslag. Diezelfde complexe logica maakt het bovendien lastig om de verversingsnelheid van de data te verhogen. Daarnaast kan je bij traditionele dataplatformen maar beperkt gebruik maken van cloudinnovaties zoals bijvoorbeeld beeldherkenning.
Complexiteit van analyses
Verder neemt niet alleen de hoeveelheid data die moeten worden verwerkt toe, dat geldt ook voor de complexiteit van de analyses. Hierdoor kost de reporting meer tijd, en duurt het langer voordat de inzichten bij de juiste personen belanden.
Hierbij vormt de fysieke hardware ook een beperkende factor. Het vervangen van bijvoorbeeld de processoren is lastig omdat deze vaak een integraal onderdeel zijn van de server. Het gevolg is dat de gehele server kan worden vervangen, wat de complexiteit verhoogt en de snelheid van het upgraden verlaagt. Processoren zijn slechts één onderdeel in dit proces, maar denk hierbij ook aan upgrades aan geheugen, harde schijven, netwerkstandaarden of routering.
Specialistische kennis
Het beheren van relationele databases vraagt dus om specialistische kennis die schaars is op de huidige arbeidsmarkt. Deze kennis is bijvoorbeeld nodig voor de eerdergenoemde complexe ETL-processen, waarbij businesslogica vaak verspreid is over verschillende lagen (bijvoorbeeld in stored procedures en SSIS packages). Dergelijke systemen laten zich lastig onderhouden en testen in een testomgeving.
Daarnaast stelt de komst van big data andere eisen een dataplatformen. Waar data traditioneel gezien vooral gebruikt werden om terug te kijken, worden ze nu steeds vaker ingezet om juist voorspellingen te doen over de toekomst. Deze analyses moeten ook in realtime worden uitgevoerd, zodat de business snel kan inspelen op veranderende omstandigheden. Voor dergelijke predictive en prescriptive modellen zijn traditionele databases niet geschikt.
De oplossing
Het antwoord op de uitdagingen op datagebied is een modern dataplatform in de Cloud dat onder andere gebruik maakt van kostenefficiënte en eindeloos schaalbare ‘data lakes’. In een notendop is dit een grote gegevensopslag voor ruwe data die elke datavorm ondersteunt, van Excel- tot csv- en mediabestanden. Deze data worden geëxtraheerd uit gekozen databronnen en vervolgens in ruwe vorm opgeslagen op één centrale locatie.
Voordelen van een data lake
Het gebruik van een data lake brengt in grote lijnen vier voordelen met zich mee:
- Data zijn sneller beschikbaar
Een traditioneel data platform maakt gebruik van een schema-on-write, wat betekent dat de data volgens een vooraf gedefinieerd format worden ingelezen voordat deze worden opgeslagen. In plaats daarvan past een data lake een schema-on-read toe, wat inhoudt dat de ruwe data pas in een schema worden gegoten op het moment dat ze daadwerkelijk worden gebruikt. Hierdoor zijn de data sneller beschikbaar. - Met alle soorten data werken
Waar in een traditionele database alleen de bruikbare gegevens worden opgeslagen, is het in een data lake mogelijk om álle data in ruwe vorm op te slaan. Daarnaast kan een data lake omgaan met zowel gestructureerde als ongestructureerde data, en het kan die zowel realtime als in batch verwerken. - Vooruit kijken
Mede door bovenstaande mogelijkheden kan een data lake zowel descriptive (terugkijken) als predictive en prescriptive (vooruitkijken) inzichten genereren. - Minder specialistische kennis nodig
Voor het beheren van traditionele dataplatformen is specialistische kennis nodig, waar dit bij een data lake veel minder aan de orde is. Dit is gezien de huidige krapte op de arbeidsmarkt goed nieuws voor de innovatiesnelheid van je organisatie.
Kosten van een data lake
Moderne dataplatformen zijn maximaal schaalbaar, waarbij de kosten meebewegen met het gebruik. De kosten van een data lake vergelijken met die van een traditionele database is echter niet eenvoudig, omdat deze sterk afhankelijk zijn van de use-case. Daar komt nog eens bij dat bij een traditioneel on-premise dataplatform de storage- en computingkrachten gebundeld zijn, terwijl die bij een modern cloud gebaseerd dataplatform zijn losgekoppeld – wat het moeilijker maakt om een direct vergelijking te maken.
Verder is het goed om te realiseren dat de kosten bij een data lake dat draait in de cloud verschuiven van capex naar opex. Er hoeven namelijk geen investeringen meer gedaan te worden in hardware, in plaats daarvan huur je serverruimte. Hiervoor krijg je schaalbaarheid en flexibiliteit terug en hoef je minder specialistische kennis in huis te halen. Vergeet ook zeker de financiële impact van de totale implementatietijd niet, die bij een cloudgebaseerde oplossing over het algemeen aanzienlijk lager ligt dan bij een on-premise omgeving.
Overigens is het wel veilig om te stellen dat de kosten van een modern dataplatform over het algemeen gunstiger uitvallen. Hoewel de diverse geschatte berekeningen uiteenlopen, komen de verschillen niet voort uit de vraag óf een cloudoplossing voordeliger is, maar hoeveel de besparing precies is ten opzichte van een traditioneel platform.