Een voorbeeld uit de praktijk
Als data engineer kom ik het tegen: een gebrek aan duidelijke beleidsmaatregelen om de datakwaliteit te kunnen garanderen. Dit kan tot gevolg hebben dat data wel opgeslagen, maar niet gecontroleerd wordt. Of dat veel van de data verloren gaat. Beide aspecten leiden tot een situatie waarin je niet veel kan met je data: zonde! Dit kan bijvoorbeeld gebeuren wanneer databeheer voor geen enkele medewerker core business is. Gegevens raken dan in silo’s verdeeld en verantwoordelijkheden worden verdeeld. Uiteindelijk kan dit er toe leiden dat niemand de kwaliteit van de data controleert en deze dus niet gegarandeerd wordt.
In deze blog bespreek ik aan de hand van een casus van onze klant, het Hoogheemraadschap van Delfland (hierna ‘Delfland’), hoe je meer grip kunt krijgen op de datakwaliteit. Ook ga ik in over hoe we Azure hebben gebruikt bij het ontwikkelde datakwaliteitssysteem voor Delfland.
Het Hoogheemraadschap van Delfland en de watersysteem analyse (WSA)
Onze klant Delfland, moet iedere zes jaar een watersysteem analyse (WSA) uitvoeren. Dit is de check van het gehele watersysteem van een waterschap, waarbij men controleert of het watersysteem aan de wettelijk gestelde normen voldoet. Hiervoor is het van belang dat het huidige watersysteem bekend is. Delfland kwam echter tot de conclusie dat een WSA veel tijd in beslag nam doordat de data over het actuele watersysteem gaande weg nog verzameld en gecontroleerd moest worden. Dit kwam vooral omdat er handmatig door de informatie van de legger moest worden gegaan om deze te controleren op juistheid.
De legger bestaat uit verschillende kunstwerken in het watersysteem: onderdelen als stuwen, duikers, gemalen, enzovoort. Doordat alle data in een groot algemeen datamodel was opgenomen, was de klus om handmatig de juiste objecten te zoeken langdradig en foutgevoelig. En wanneer de datakwaliteit incorrect bleek, konden de functionaliteiten van deze kunstwerken niet gemodelleerd worden voor de WSA.
Automatisch controleren en monitoren helpt hydrologen, het beheerteam en managers
Zodoende zijn we begonnen om een systeem in te richten, dat automatisch de huidige data, toekomstige data en nieuwe inmetingen controleert door deze te onderwerpen aan een groep kwaliteitsregels. Deze regels representeren de handmatige toetsingen die de hydroloog normaal zelf uitvoert. Daarmee is het geheel gebaseerd op enkel de domeinkennis van de hydroloog. Maar kan wel de garantie geboden worden dat als alle objecten goedgekeurd zijn, de WSA enkel valide invoer bevat. Met als gevolg: men hoeft minder tot geen tijd te besteden aan het bijwerken en uitzoeken van foutieve waarden van opgeslagen objecten.
Wij hebben het ontwikkelde systeem uitgebreid met extra regels voor het gegevensbeheer team. Hierdoor worden ook aspecten gecontroleerd die niet per se voor een WSA van belang zijn. Zoals bijvoorbeeld de stand van een duiker bij een watergang of de positie van een stuw rond de grens van twee peilgebieden. Het hele pakket aan regels levert een overzicht op van de staat van de huidige data in het beheersysteem. Door het ontwikkelde systeem vervolgens met behulp van PowerBi te visualiseren, is er bovendien in een oogopslag een overzicht voor handen van de status en worden de nodige acties bekend gemaakt aan de betrokkenen.
Naast dit alles is er bovendien een nieuwe data pipeline, welke controleert of er nieuwe metingen zijn. Wanneer dit het geval is, wordt er gecontroleerd of de nieuwe data wel strookt met de gestelde eisen van de huidige data. Daarop volgt een rapport om te kunnen zien welke data veilig overgenomen kan worden.
Het nieuwe systeem zorgt voor meer controle en eenvoud. De hydrologen hebben hiermee inzicht in de datakwaliteit binnen hun analyse gebied. Voor het beheerteam is duidelijk waar de problemen optreden, en daarnaast kan het management veranderingen over het verloop van tijd in de gaten houden.

In de Cloud met Azure
Naast het maken van het datakwaliteitssysteem is dit ook meteen een test casus van Delfland om te proberen wat er kan in de Azure public cloud. Momenteel draaien de systemen van Delfland in een hybride cloud (on premise & in een publieke cloud). Het gevolg hiervan is dat de data in verschillende systemen lastig te ontsluiten is. Daarom is voor deze oplossing besloten om een gedeelte van die data te ontsluiten in Azure met behulp van de Azure Data Factory. Dit levert een veilige en eenvoudige oplossing op om die benodigde data naar de cloud te migreren. Bij het binnenkomen van de data in de cloud wordt deze automatisch aan de kwaliteitsregels onderworpen. Het systeem draait serverless, wat betekent dat er enkel wanneer het nodig is geld- en energiekosten worden gemaakt. Verwerking van data in de cloud levert daarnaast ook een overzicht op van de nieuwe datakwaliteit.
Al met al kunnen we concluderen dat het hebben van een algemene controle van de datakwaliteit een belangrijke eerste stap is in de route naar datamanagement. Zo’n tool alleen is echter onvoldoende om veranderingen te maken. Daarvoor zal de gehele organisatie mee moeten veranderen zodat er eigenaarschap is over de data en de kwaliteit. Pas als hier processen voor klaarliggen zal de datakwaliteit verbeteren. Bovendien kan daarmee de kennis binnen de organisatie ook vastgelegd worden voor overdracht. Desalniettemin is dit een grote stap in de goeie richting.
Wil je meer te weten komen over hoe data engineering kan helpen datakwaliteit te verbeteren? Behoefte aan een data engineer die met je mee denkt? Of wil je meer te weten komen over de mogelijkheden van Azure? Neem dan vooral contact met ons op: wij helpen je graag verder.
Outlierdetectie in sensordata
jul
Predictive maintenance: de voor- en nadelen van de verschillende technieken
jun
Datakwaliteitssysteem om kwaliteit automatisch te monitoren
jun
Hoe zuiver is mijn sensor data?
mei
De eikenprocessierupsenplaag: op naar een centrale aanpak met behulp van data science
apr
Reinforcement learning voor optimalisatie bedrijfsvoering Vitens
apr
Textmining voor meer inzicht in zorgdossiers
apr
Voorbij de coronacrises, het pad naar het nieuwe normaal
apr
Identificeer natte koeltorens zonder fysiek bezoek
apr
COVID-19 HACKATHON
apr
Datavisualisatie: welke tool kan ik het beste gebruiken?
mrt
De rol van de analytics translator: in 3 stappen naar data science toepassingen met échte business waarde
mrt
Gezocht: talenten met data-skills
mrt
Samenwerking Adviesbureau Veiligheid & Handhaving
mrt
Data science krachtige toevoeging in industrieel productieproces
mrt
Using Artificial Intelligence for road safety: a smarter way of maintenance
jan
Gaten in dataset opvullen met machine learning
jan
In 2020 aan de slag met data science?
dec
Data engineering: is jouw data-architectuur klaar voor data science?
dec
Verslag aquatech 2019
nov
5 questions to Thierry Luhandjula
nov
White paper: toepassen van data science voor slimmer rioolbeheer
nov
Combining AI and simulation in industry: does 1 + 1 make 3?
okt
Het ECML/PKDD 2019 congres: de highlights
okt
AI in de watersector: 3 manieren om meer te halen uit sensordata
okt
Data-rapportage zorgt voor win-win situatie bij RUD Drenthe
okt
Meer grip op Wmo-voorzieningen
okt
Data en expertkennis sleutel voor veilige stranden
aug
PyData 2019: data science trends en ontwikkelingen
aug
Data science in strijd tegen processierups
aug
3 kernvragen over digitale transformatie die waterschappen en drinkwaterbedrijven moeten beantwoorden
jul
Meer grip op ‘onzichtbare’ vastgoedcriminaliteit
jun
Value-based healthcare: gepersonaliseerde zorg met data science
mei
Winnende idee Dutch Hacking Health 2019
mei
Milieuscan: data-sleutel tot schone, duurzame en veilige leefomgeving
mei
Als waterexpert aan de slag met data science, zonder concrete vraag
mei
Woonfraude, onveilig pandgebruik en overlast voorkomen met Sherlock Homes
apr
Basisregistratie Adressen en Gebouwen (BAG) voor data science
apr
AI in de publieke sector: tijd dat burgers resultaat zien
apr
Why feature selection leads to powerful models
mrt
Big data in de gezondheidszorg: van model naar implementatie
feb
Van innoveren naar structurele oplossingen voor risicogestuurd toezicht & handhaving
feb
Voorspellen van hart- en vaatziekten met behulp van artificial intelligence (AI)
jan
Big Data in de gezondheidszorg: de toepassing van Neural Networks & Logistic LASSO
dec
The tools we use to write higher-quality R code
nov
Ynformed en Royal HaskoningDHV presenteren HydroTwin op Innovatie Expo
okt
Overname Ynformed door Royal HaskoningDHV
jul
Ynformed & Royal HaskoningDHV winnen Data Challenge Klimaatadaptief Waterbeheer
jun
Barry van ’t Padje: brandweerincidenten helemaal niet zo onvoorspelbaar als we denken
jun
Strandbezettingsmodel voor Veiligheidsregio Haaglanden
jun
Raad aan de Raad: voorspelbare wereld
apr
Team Ynformed wint Hacking Health Utrecht
apr
Terugblik op Zorg & ICT 2018 in beeld
apr
Digitale transformatie bij waterschappen
apr
Data science voor waterschappen: twee praktijkcases
apr
Data science in zorg op Zorg & ICT 2018
apr
Data-gedreven aanpak re-integratie
apr
Wat kies jij vandaag: een gemeenteraad met onderbuikgevoel of met data-ambities?
mrt
Zonder wiskunde geen data science
mrt
Wat digitale transformatie echt betekent (en hoe je succes boekt)
mrt
Acht cruciale investeringsstappen voor slimme gemeenten
mrt
Big Data Challenge Waterschap Rivierenland van start
feb
Beschikken gemeenten straks ook over big data door deze 3 trends?
feb
Waarom 2018 het jaar wordt van risicogestuurde handhaving
feb
Wij verhuizen naar het WTC Utrecht
feb
Nieuwe Scrum Masters voor data science-projecten. Werk jij al met Scrum?
dec
Netflix voor medicatie?
okt
Als we dan een auto gaan rijden, dan een elektrische!
okt
Voetbal & data science: goede combinatie
jul
Accountability Hack 2017 verslag
jun
Case: vroegtijdig signaleren van kindermishandeling
apr
Realiseer snelle resultaten met Scrum
apr
Datagedreven werken – De Brug als metafoor voor verandering
mrt
Textmining partijprogramma’s verkiezingen 2017
feb
R en SPSS, een vergelijking
dec
Utrechtse Masterclass ‘Innoveren met Informatie’ stoomt managers klaar voor toekomst
okt