Datakwaliteitssysteem om kwaliteit automatisch te monitoren

Een voorbeeld uit de praktijk

Als data engineer kom ik het tegen: een gebrek aan duidelijke beleidsmaatregelen om de datakwaliteit te kunnen garanderen. Dit kan tot gevolg hebben dat data wel opgeslagen, maar niet gecontroleerd wordt. Of dat veel van de data verloren gaat. Beide aspecten leiden tot een situatie waarin je niet veel kan met je data: zonde! Dit kan bijvoorbeeld gebeuren wanneer databeheer voor geen enkele medewerker core business is. Gegevens raken dan in silo’s verdeeld en verantwoordelijkheden worden verdeeld. Uiteindelijk kan dit er toe leiden dat niemand de kwaliteit van de data controleert en deze dus niet gegarandeerd wordt.

In deze blog bespreek ik aan de hand van een casus van onze klant, het Hoogheemraadschap van Delfland (hierna ‘Delfland’), hoe je meer grip kunt krijgen op de datakwaliteit. Ook ga ik in over hoe we Azure hebben gebruikt bij het ontwikkelde datakwaliteitssysteem voor Delfland.

Het Hoogheemraadschap van Delfland en de watersysteem analyse (WSA)

Onze klant Delfland, moet iedere zes jaar een watersysteem analyse (WSA) uitvoeren. Dit is de check van het gehele watersysteem van een waterschap, waarbij men controleert of het watersysteem aan de wettelijk gestelde normen voldoet. Hiervoor is het van belang dat het huidige watersysteem bekend is. Delfland kwam echter tot de conclusie dat een WSA veel tijd in beslag nam doordat de data over het actuele watersysteem gaande weg nog verzameld en gecontroleerd moest worden. Dit kwam vooral omdat er handmatig door de informatie van de legger moest worden gegaan om deze te controleren op juistheid.

De legger bestaat uit verschillende kunstwerken in het watersysteem: onderdelen als stuwen, duikers, gemalen, enzovoort. Doordat alle data in een groot algemeen datamodel was opgenomen, was de klus om handmatig de juiste objecten te zoeken langdradig en foutgevoelig. En wanneer de datakwaliteit incorrect bleek, konden de functionaliteiten van deze kunstwerken niet gemodelleerd worden voor de WSA.

Automatisch controleren en monitoren helpt hydrologen, het beheerteam en managers

Zodoende zijn we begonnen om een systeem in te richten, dat automatisch de huidige data, toekomstige data en nieuwe inmetingen controleert door deze te onderwerpen aan een groep kwaliteitsregels. Deze regels representeren de handmatige toetsingen die de hydroloog normaal zelf uitvoert. Daarmee is het geheel gebaseerd op enkel de domeinkennis van de hydroloog. Maar kan wel de garantie geboden worden dat als alle objecten goedgekeurd zijn, de WSA enkel valide invoer bevat. Met als gevolg: men hoeft minder tot geen tijd te besteden aan het bijwerken en uitzoeken van foutieve waarden van opgeslagen objecten.

Wij hebben het ontwikkelde systeem uitgebreid met extra regels voor het gegevensbeheer team. Hierdoor worden ook aspecten gecontroleerd die niet per se voor een WSA van belang zijn. Zoals bijvoorbeeld de stand van een duiker bij een watergang of de positie van een stuw rond de grens van twee peilgebieden. Het hele pakket aan regels levert een overzicht op van de staat van de huidige data in het beheersysteem. Door het ontwikkelde systeem vervolgens met behulp van PowerBi te visualiseren, is er bovendien in een oogopslag een overzicht voor handen van de status en worden de nodige acties bekend gemaakt aan de betrokkenen.

Naast dit alles is er bovendien een nieuwe data pipeline, welke controleert of er nieuwe metingen zijn. Wanneer dit het geval is, wordt er gecontroleerd of de nieuwe data wel strookt met de gestelde eisen van de huidige data. Daarop volgt een rapport om te kunnen zien welke data veilig overgenomen kan worden.

Het nieuwe systeem zorgt voor meer controle en eenvoud. De hydrologen hebben hiermee inzicht in de datakwaliteit binnen hun analyse gebied. Voor het beheerteam is duidelijk waar de problemen optreden, en daarnaast kan het management veranderingen over het verloop van tijd in de gaten houden. 

Dit is een voorbeeld van het dashboard voor nieuw ingemeten stuwen. De kleur geeft de datakwaliteit weer en in de tabel zijn de gevonden problemen weergegeven.

In de Cloud met Azure

Naast het maken van het datakwaliteitssysteem is dit ook meteen een test casus van Delfland om te proberen wat er kan in de Azure public cloud. Momenteel draaien de systemen van Delfland in een hybride cloud (on premise & in een publieke cloud). Het gevolg hiervan is dat de data in verschillende systemen lastig te ontsluiten is. Daarom is voor deze oplossing besloten om een gedeelte van die data te ontsluiten in Azure met behulp van de Azure Data Factory. Dit levert een veilige en eenvoudige oplossing op om die benodigde data naar de cloud te migreren. Bij het binnenkomen van de data in de cloud wordt deze automatisch aan de kwaliteitsregels onderworpen. Het systeem draait serverless, wat betekent dat er enkel wanneer het nodig is geld- en energiekosten worden gemaakt. Verwerking van data in de cloud levert daarnaast ook een overzicht op van de nieuwe datakwaliteit.

Al met al kunnen we concluderen dat het hebben van een algemene controle van de datakwaliteit een belangrijke eerste stap is in de route naar datamanagement. Zo’n tool alleen is echter onvoldoende om veranderingen te maken. Daarvoor zal de gehele organisatie mee moeten veranderen zodat er eigenaarschap is over de data en de kwaliteit. Pas als hier processen voor klaarliggen zal de datakwaliteit verbeteren. Bovendien kan daarmee de kennis binnen de organisatie ook vastgelegd worden voor overdracht. Desalniettemin is dit een grote stap in de goeie richting. 

Wil je meer te weten komen over hoe data engineering kan helpen datakwaliteit te verbeteren? Behoefte aan een data engineer die met je mee denkt? Of wil je meer te weten komen over de mogelijkheden van Azure? Neem dan vooral contact met ons op: wij helpen je graag verder.  

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *