Digitalisering staat wereldwijd in bijna iedere branche en bij menige organisatie hoog op de agenda. Handhavingsorganisaties en toezichthouders hebben meer en meer de behoefte om de gegevenshuishouding op orde te krijgen en datagedreven te gaan werken. Dit is niet gemakkelijk. Immers, voor de dagelijkse praktijk is het nodig om vanuit diverse bronnen informatie te halen: enkel een zaaksysteem waarin de administratie wordt bijgehouden volstaat in 2020 niet meer. Bronnen als het BAG, het handelsregister, de WOZ, het KNMI en het CBS worden (en moeten worden) steeds vaker geraadpleegd, omdat men pas een realistisch beeld van de werkelijkheid krijgt wanneer alle beschikbare datapunten als puzzelstukjes worden gecombineerd.
Hierbij komen specifieke problemen om de hoek kijken: wat nu als een aantal puzzelstukjes ontbreken? Staan bedrijven die wel in het zaaksysteem voorkomen, maar niet in het handelsregister, voldoende op de radar? En andersom? Beperkt onze kennis zich tot de objecten die we in iedere relevante bron tegenkomen, of kunnen we ook aan de slag wanneer er informatie ontbreekt? In dit artikel geef ik voorbeelden hoe dit veelvoorkomende probleem op verschillende manieren kan worden opgelost.
Koppelen van datasets & het detecteren van ‘data gaten’
Het koppelen van datadumps uit verschillende bronnen gaat bij voorkeur aan de hand van een koppeltabel (merge table). Daarin staat dan bijvoorbeeld voor ieder dossier welk KVK-bedrijf erbij hoort. Wanneer deze niet beschikbaar is, zit er vaak nog maar één ding op: koppelen op basis van postcode en huisnummer. In de praktijk leidt dit tot bijvoorbeeld vaak de volgende problemen:
- een bedrijf ontbreekt in één van de bronnen, waardoor belangrijke informatie ontbreekt,
- een bron is verouderd, waardoor de gegevens van een (inmiddels opgeheven) bedrijf foutief worden gekoppeld aan het bedrijf dat momenteel op het adres gevestigd is,
- er zijn meerdere bedrijven op hetzelfde adres te vinden, wat ook leidt tot foutieve koppelingen van gegevens,
- een bedrijf heeft in de ene bron naast een huisnummer ook een huisletter: als de huisletter in een andere bron ontbreekt komt de koppeling niet tot stand.
Omdat dit soort koppelproblemen relatief vaak voorkomen adviseer ik om tijdens het verwerken van de data regelmatig te controleren hoeveel objecten (niet) gekoppeld kunnen worden. Ook kan een visualisatie van ontbrekende waarden met het R-package ‘Amelia’ je hierbij helpen.

Het opvullen van de ontbrekende puzzelstukjes
Vaak is de aanwezigheid van ontbrekende gegevens niet te voorkomen omdat de databronnen die worden gebruikt incompleet zijn. Het probleem van ontbrekende gegevens doordat bedrijven in één van de bronnen niet voorkomen, komt bij handhavingsorganisaties relatief veel voor. Dit komt doordat er pas een dossier wordt aangemaakt van een bedrijf wanneer er een controle plaatsvindt. Een koppeling tussen zaaksysteem en handelsregister is daarom belangrijk. Hiermee ontstaat er een zo volledig mogelijk beeld van ‘alle’ bedrijven in de regio. We weten echter maar heel weinig over een bedrijf als deze slechts in het handelsregister voorkomt en niet in het zaaksysteem. Hieronder twee succesvolle toepassingen van data science die hierbij kunnen helpen.
Voorbeeld 1 – Branche codes schatten
Ieder bedrijf dat in het zaaksysteem wordt opgenomen wordt in een ‘Branche’ ingedeeld. In totaal hanteert men ca. 60 verschillende branches. Dit kenmerk wordt gebruikt om een bedrijvenlijst uit te draaien voor specifiek toezicht, bijvoorbeeld binnen de branche ‘School’. We gaan er van uit dat alle scholen in de regio in onze gekoppelde dataset voorkomen. Als een school echter niet in het zaaksysteem voorkomt, is het veld ‘Branche’ in onze gekoppelde dataset leeg. Filteren we dus onze dataset op basis van de branche, dan missen al deze scholen en zijn we niets opgeschoten met het koppelen van de datasets.
Data science biedt ons de mogelijkheid om efficiënt en snel een redelijk goede inschatting te maken van de Branche voor de scholen uit het KVK. Hiervoor gebruiken we de bedrijven die in beide bronnen voorkomen. In deze overlappende dataset bepalen we hoe vaak een SBI-code (uit het KVK) en een Branche code samen voorkomen. Dit doen we door een co-occurrence matrix op te stellen voor deze twee kenmerken. Daarmee schatten we vervolgens voor ieder bedrijf in de KVK-dataset welke Branche erbij past op basis van de SBI-code. De aanpak is snel, flexibel (de koppeltabel kunnen we, indien gewenst, handmatig bijwerken) en dit levert ons zonder extra moeite een inschatting van de betrouwbaarheid.
Voor het bovengenoemde voorbeeld leidt dit tot het volgende resultaat: als we van de gekoppelde dataset alle ‘Scholen’ willen uitdraaien, krijgen we een dataset met ca. 80 bedrijven waarvan we weten dat het scholen zijn en ca. 20 bedrijven waarvan we inschatten dat het scholen zijn. De laatste groep, van 20 bedrijven, was zonder onze huidige aanpak onder de radar gebleven en zodoende niet op de toezichtlijst beland.
Voorbeeld 2 – Energie meldplicht schatten
In het kader van de meldplicht energieverbruik is het belangrijk dat een handhavingsorganisatie weet welke bedrijven meldplichtig zijn. Zelfs met een gekoppelde dataset lopen we ook hier weer tegen hetzelfde probleem aan als hierboven: alleen van de bedrijven waarvan de energiegegevens bekend zijn kan men bepalen of ze ‘wel’ of ‘niet’ meldplichtig zijn. Ook hierbij kan data science uitkomst bieden. Door goed naar alle overige gegevens te kijken kunnen we voor een groot aantal bedrijven bepalen of ze ‘vermoedelijk wel’ of ‘vermoedelijk niet’ meldplichtig zijn.
Om dit te doen, kijken we naar de overlappende dataset. Hierop trainen we een classificatie model die een aantal kenmerken gebruikt die een hoog of laag energieverbruik kunnen verklaren. Dit zijn bijvoorbeeld de SBI-code, vloeroppervlakte, bouwjaar en het aantal werknemers. Hiermee kunnen we een inschatting maken van of een bedrijf groot-, midden- of kleinverbruiker is. De nauwkeurigheid van het model kunnen we evalueren op de overlappende dataset. Vervolgens maken we een inschatting van de verbruikersklasse voor de bedrijven waarvan we geen energiegegevens hebben, en verwerken we deze voorspelling naar de labels over de meldplicht. Hierbij wordt duidelijk onderscheid gemaakt tussen ‘wel meldplichtig’ en ‘vermoedelijk wel meldplichtig’, zodat we bijvoorbeeld de mogelijkheid hebben om 2 soorten brieven te versturen wanneer de betreffende bedrijven worden aangeschreven.
Los van de aanpak met het classificatie model is er nog een mogelijkheid om verbruiksgegevens te schatten. Deze is gebaseerd op de bedrijfspanden studie van de ECN uit 2015. Zij hebben alle bedrijfspanden ingedeeld in ‘gebouwtypen’ (ca. 30 verschillende) Voor ieder gebouwtype is daarna het gemiddelde bepaald van het energieverbruik per vierkante meter, genaamd een kental. Deze kentallen zijn openbaar gemaakt, wat betekent dat wij ze kunnen gebruiken voor een rekenkundige voorspelling van het energieverbruik op basis van SBI-code, BAG-gebruiksdoel en bouwjaar van het pand en het vloeroppervlak van het bedrijf. Deze methode is generieker en onafhankelijk van een bestaande dataset met energiegegevens. Omdat er echter met gemiddelden wordt gewerkt over grote categorieën bedrijven uit heel Nederland is de gemiddelde afwijking ook groter.
De voordelen van het opvullen van ontbrekende data
Eerder zagen we al dat het opvullen van gaten in de dataset helpt met het verkrijgen van completere toezicht- en handhavingslijsten, omdat bedrijven die normaal gesproken onder de radar blijven plotseling wel meegenomen worden. Daarnaast zorgt het er ook voor dat visualisaties van een dataset, bijvoorbeeld met alle bedrijven als punten op een kaart, vollediger en informatiever worden. Daarnaast werken filters op de dataset beter, simpelweg omdat er meer velden en waarden zijn om te filteren, zodat het mogelijk is om in te zoomen en analyses te draaien op specifieke sets. Tot slot helpt het koppelen en invullen van datasets bij het ontdekken van discrepanties of verouderde gegevens in de inspectie- of toezichtlijsten.
Interesse in een assessment door een data scientist van Ynformed aan de hand van jouw dataset of zaaksysteem? Of wil je gewoon meer weten? Neem contact op!
Outlierdetectie in sensordata
jul
Predictive maintenance: de voor- en nadelen van de verschillende technieken
jun
Datakwaliteitssysteem om kwaliteit automatisch te monitoren
jun
Hoe zuiver is mijn sensor data?
mei
De eikenprocessierupsenplaag: op naar een centrale aanpak met behulp van data science
apr
Reinforcement learning voor optimalisatie bedrijfsvoering Vitens
apr
Textmining voor meer inzicht in zorgdossiers
apr
Voorbij de coronacrises, het pad naar het nieuwe normaal
apr
Identificeer natte koeltorens zonder fysiek bezoek
apr
COVID-19 HACKATHON
apr
Datavisualisatie: welke tool kan ik het beste gebruiken?
mrt
De rol van de analytics translator: in 3 stappen naar data science toepassingen met échte business waarde
mrt
Gezocht: talenten met data-skills
mrt
Samenwerking Adviesbureau Veiligheid & Handhaving
mrt
Data science krachtige toevoeging in industrieel productieproces
mrt
Using Artificial Intelligence for road safety: a smarter way of maintenance
jan
Gaten in dataset opvullen met machine learning
jan
In 2020 aan de slag met data science?
dec
Data engineering: is jouw data-architectuur klaar voor data science?
dec
Verslag aquatech 2019
nov
5 questions to Thierry Luhandjula
nov
White paper: toepassen van data science voor slimmer rioolbeheer
nov
Combining AI and simulation in industry: does 1 + 1 make 3?
okt
Het ECML/PKDD 2019 congres: de highlights
okt
AI in de watersector: 3 manieren om meer te halen uit sensordata
okt
Data-rapportage zorgt voor win-win situatie bij RUD Drenthe
okt
Meer grip op Wmo-voorzieningen
okt
Data en expertkennis sleutel voor veilige stranden
aug
PyData 2019: data science trends en ontwikkelingen
aug
Data science in strijd tegen processierups
aug
3 kernvragen over digitale transformatie die waterschappen en drinkwaterbedrijven moeten beantwoorden
jul
Meer grip op ‘onzichtbare’ vastgoedcriminaliteit
jun
Value-based healthcare: gepersonaliseerde zorg met data science
mei
Winnende idee Dutch Hacking Health 2019
mei
Milieuscan: data-sleutel tot schone, duurzame en veilige leefomgeving
mei
Als waterexpert aan de slag met data science, zonder concrete vraag
mei
Woonfraude, onveilig pandgebruik en overlast voorkomen met Sherlock Homes
apr
Basisregistratie Adressen en Gebouwen (BAG) voor data science
apr
AI in de publieke sector: tijd dat burgers resultaat zien
apr
Why feature selection leads to powerful models
mrt
Big data in de gezondheidszorg: van model naar implementatie
feb
Van innoveren naar structurele oplossingen voor risicogestuurd toezicht & handhaving
feb
Voorspellen van hart- en vaatziekten met behulp van artificial intelligence (AI)
jan
Big Data in de gezondheidszorg: de toepassing van Neural Networks & Logistic LASSO
dec
The tools we use to write higher-quality R code
nov
Ynformed en Royal HaskoningDHV presenteren HydroTwin op Innovatie Expo
okt
Overname Ynformed door Royal HaskoningDHV
jul
Ynformed & Royal HaskoningDHV winnen Data Challenge Klimaatadaptief Waterbeheer
jun
Barry van ’t Padje: brandweerincidenten helemaal niet zo onvoorspelbaar als we denken
jun
Strandbezettingsmodel voor Veiligheidsregio Haaglanden
jun
Raad aan de Raad: voorspelbare wereld
apr
Team Ynformed wint Hacking Health Utrecht
apr
Terugblik op Zorg & ICT 2018 in beeld
apr
Digitale transformatie bij waterschappen
apr
Data science voor waterschappen: twee praktijkcases
apr
Data science in zorg op Zorg & ICT 2018
apr
Data-gedreven aanpak re-integratie
apr
Wat kies jij vandaag: een gemeenteraad met onderbuikgevoel of met data-ambities?
mrt
Zonder wiskunde geen data science
mrt
Wat digitale transformatie echt betekent (en hoe je succes boekt)
mrt
Acht cruciale investeringsstappen voor slimme gemeenten
mrt
Big Data Challenge Waterschap Rivierenland van start
feb
Beschikken gemeenten straks ook over big data door deze 3 trends?
feb
Waarom 2018 het jaar wordt van risicogestuurde handhaving
feb
Wij verhuizen naar het WTC Utrecht
feb
Nieuwe Scrum Masters voor data science-projecten. Werk jij al met Scrum?
dec
Netflix voor medicatie?
okt
Als we dan een auto gaan rijden, dan een elektrische!
okt
Voetbal & data science: goede combinatie
jul
Accountability Hack 2017 verslag
jun
Case: vroegtijdig signaleren van kindermishandeling
apr
Realiseer snelle resultaten met Scrum
apr
Datagedreven werken – De Brug als metafoor voor verandering
mrt
Textmining partijprogramma’s verkiezingen 2017
feb
R en SPSS, een vergelijking
dec
Utrechtse Masterclass ‘Innoveren met Informatie’ stoomt managers klaar voor toekomst
okt