Basisregistratie Adressen en Gebouwen (BAG) voor data science

Stel je voor; de omgevingsdienst heeft vergunningen voor bepaalde ondernemingen onderzocht, maar bij de analyse blijkt dat de genoteerde adressen niet overeenkomen met de werkelijkheid. Dat maakt het werk van de informatiemanager er niet makkelijker op. Omdat dit soort issues vaker voor blijken te komen binnen overheidsinstanties, hebben wij ons hierover gebogen. Hoe makkelijk zou het zijn als allerlei openbaar beschikbare data gebruikt kon worden om inzicht te krijgen in de bron van het probleem. Handig? Dat dachten wij ook. Daarom zijn we bij Ynformed op dit moment bezig met het in kaart brengen en makkelijk beschikbaar maken van basisregistraties, zoals BAG, voor het toepassen van data science. In combinatie met bestaande data over inspecties of vergunningen, kunnen wij tot een sneller en beter resultaat komen. In deze blog behandel ik veel voorkomende problemen bij het toepassen van data science in de publieke sector en hoe wij die proberen op te lossen.

Het Kadaster en BAG

In Nederland wordt door het Kadaster een schat aan informatie aangeboden, zoals adressen, percelen, wegen en ga zo maar door. Het Kadaster ontvangt van de gemeenten allerlei informatie over nieuwe adressen of bebouwingen. Zij vat deze informatie samen tot een makkelijk te gebruiken, up-to-date bestand. Deze data is voor een groot deel beschikbaar voor publiek gebruik.

Een van die veel gebruikte openbaar beschikbare bronnen is de BAG, oftewel de Basisregistratie Adressen en Gebouwen . Dit is een bestand waarin alle gebouwen, adressen, straten en woonplaatsen in Nederland terug te vinden zijn. Er is een ontelbare lijst van taken van de overheid die gebaseerd is op adressen of gebouwen.

Overheidsorganisaties maken veelvuldig gebruik van het BAG en andere openbare bronnen voor bijvoorbeeld het inspecteren van boerderijen en stallen, of het opsporen van huisjesmelkers. Voor deze taken is het niet alleen belangrijk dat er een adres bekend is voor de inspecteur, maar ook dat dit adres correct en up-to-date is. Dit is helaas vaak niet het geval. Problemen die kunnen voorkomen zijn:

  • Een inspecteur vult handmatig een adres in, maar doet dat incorrect: hij vult bijvoorbeeld 4 in plaats van 4a in als huisnummer.
  • Een inspecteur vult handmatig het juiste adres in, maar dat is niet het adres van het bedrijf: een boerderij heeft huisnummer 6, en het kantoor wat daarbij hoort heeft huisnummer 8.
  • Er heeft ooit een inspectie plaatsgevonden op een adres, maar dat adres bestaat inmiddels niet meer. Dit kan voorkomen door bijvoorbeeld een splitsing.

Dit soort administratieve fouten stapelen zich op en kunnen het werk van een informatiemanager een stuk moeilijker maken. Ook voor data science is het belangrijk dat de data goed op orde is: incorrecte data leidt tot incorrecte conclusies. Daar heeft niemand wat aan.

Data science-proof

Om problemen die ontstaan door incorrecte informatie te kunnen voorkomen of achterhalen maakt Ynformed voor data science gebruik van verschillende openbare bronnen. Dit maakt het veel makkelijker om problemen met bestaande data op te sporen en op te lossen. Hoe ziet dit er in de praktijk uit?

Ten eerste is het bij data science en veel andere toepassingen van groot belang dat de gebruikte data zo correct mogelijk is. Het zou heel mooi zijn als we met relatief weinig moeite konden uitzoeken hoeveel fouten er in de data zitten, zoals verkeerd gespelde straatnamen, of niet-bestaande huisnummers. Dat kan nu! Doordat alle informatie wordt gecombineerd, ziet de data scientist meteen waar de informatie uit de verschillende bronnen afwijkt.

Ten tweede gebeurt het dat we vragen krijgen die deels beantwoord kunnen worden door te kijken naar het BAG of andere open data, maar dat de data die is aangeleverd niet compleet is. Als de aangeleverde data alleen bestaat uit straatnamen en huisnummers, komen we in de problemen als we de data willen filteren op bijvoorbeeld wijk of gebruiksdoel. En dat terwijl deze data gewoon openbaar is! Door die openbare informatie toe te kunnen voegen aan de geleverde data, lossen we dit probleem op. En dat gaat nu een stuk eenvoudiger.

Data science-vraagstukken

In de praktijk zullen we de publieke bronnen altijd combineren met data specifiek voor een data science-vraagstuk. Als we inzichten willen geven in risicofactoren bij inspecties, hebben we data over historische inspecties nodig (Zie bijvoorbeeld ons project voor NVWA). Als we iets willen leren over huizen die wellicht een vergunning nodig hebben, hebben we data over historische vergunningen nodig (Zie ook ons project Sherlock Homes). Daarnaast kunnen we ook voorspellen welke huizen een hoger risico hebben op een brand als we de data combineren met brandmeldingen (Zie ons project voor de Veiligheidsregio Utrecht).

Kortom: de combinatie van publieke informatie die data science-proof is, is ontzettend nuttig voor het snel ontwikkelen van allerlei toepassingen. Hierdoor kunnen we sneller prototypes en producten bouwen, gebaseerd op data die up-to-date is. Daarnaast verkrijgen we makkelijker inzicht in een omgeving en helpt het ons om bij het toepassen van data science direct inzicht te krijgen in mogelijke problemen met de data. Het maakt dat we sneller en tot betere resultaten komen. 

Wil jij ook af van incomplete of incorrecte data? Wij praten hier graag met je over door.

One thought on “Basisregistratie Adressen en Gebouwen (BAG) voor data science

  1. Pingback: Woonfraude, onveilig pandgebruik en overlast voorkomen met Sherlock Homes - Ynformed

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *