Big Data in de gezondheidszorg: de toepassing van Neural Networks & Logistic LASSO

Big Data in de gezondheidszorg is de laatste jaren een hot topic [1, 2, 3]. Een veelvoorkomende vraag vanuit zorgdeskundigen is: ‘Hoe kunnen we de grote hoeveelheid beschikbare data optimaal benutten?’ Als de onderzoeksvraag en bijbehorende dataset veelbelovend zijn, zet Ynformed zich in om met behulp van Data Science de potentie aan meerwaarde te realiseren. Bij meerdere projecten die we hebben gedaan in de gezondheidszorg komt één vraag vaker terug: Hoe maken we de enorme hoeveelheden geanonimiseerde data werkbaar? In deze blogpost ga ik in op deze vraag en worden mogelijke oplossingen, die (in onze ervaring) goed blijken te werken, aangedragen.

Samenwerking met experts

In medische vraagstukken is vaak veel data beschikbaar. Denk hierbij aan metingen van de hartslag, bloeddruk, ademhaling, bloedwaardes, enzovoort. Bij het verwerken van deze data tot een geschikt formaat voor Data Science modellen is een nauwe samenwerking met de medisch specialisten nodig, aangezien deze vaak het beste weten:

  • Welke gemeten variabelen mogelijk relevant zijn om een vraagstuk te beantwoorden;
  • Of sommige variabelen wellicht getransformeerd moeten worden (door bijvoorbeeld de absolute waarde ervan te gebruiken) voordat ze informatief kunnen zijn, en welke manier dan het best passend is;
  • Of het vervangen van een missende waarde door bijvoorbeeld het gemiddelde de beste oplossing is;
  • Wat het risico is van het aanpassen van de frequentie van een variabele, bijvoorbeeld van een meting per seconde naar een gemiddelde per minuut.

Onze Data Scientists hebben een goed idee bij het gevolg van aanpassingen in de data op de werking van het model, maar om de input van het model ook zo dicht mogelijk bij de medische werkelijkheid te houden is de kennis van zorgspecialisten essentieel.

Het selecteren van een geschikt classificatie-algoritme

Menig vraagstuk in de gezondheidszorg kan geformuleerd worden als een binair classificatie probleem. Voorbeelden hiervan zijn vragen als: ‘Is een bepaald medicijn wel of niet geschikt voor een specifieke patiënt?’ of ‘Zal een patiënt na ontslag wel of niet worden heropgenomen?’. Een bekende methode vanuit de statistiek om dit te modelleren is de Logistic Regression. De laatste decennia zijn echter Machine Learning technieken zoals Decision Trees, Random Forests en Neural Networks opkomend in populariteit. Belangrijk bij het selecteren van een classificatie-algoritme is dat men uiteindelijk een kans wilt weten, en niet alleen een wel of niet waarde. Een hoge kans op bijvoorbeeld een bepaalde ziekte kan tot een totaal ander behandelplan leiden dan een lage kans. Technieken als de k-Nearest Neighbour en de Support Vector Machine geven alleen een ‘wel of niet waarde’ en worden daarom minder geschikt geacht voor dit soort problemen. In dit artikel zullen we dieper ingaan op de technieken Logistic LASSO en Neural Networks, beide geschikt voor hoog-dimensionale data (lees: data met veel variabelen) en beide in staat om een kansinschatting te geven in plaats van enkel een binaire waarde.

Neural Network vs Logistic LASSO

Vaak staat de hoeveelheid patiënten die meegenomen wordt in een studie niet in de juiste verhouding tot de hoeveelheid gemeten variabelen die per patiënt worden meegenomen (lees: weinig patiënten, veel variabelen). Deze hoge dimensionaliteit van de data is problematisch voor de meeste modellen. Feature selection kan gebruikt worden om deze dimensie te verlagen. Het model geeft dan aan wat de variabelen zijn die de grootste voorspellende waarde hebben. Alleen deze variabelen zal je vervolgens willen gebruiken in het model. Een belangrijke methode om dit te doen is de Logistic LASSO, een extensie van de welbekende Logistic Regression. Logistic LASSO minimaliseert vrijwel dezelfde verlies functie als een Logistic Regression, maar vermenigvuldigt variabelen met weinig voorspellende waarde met een relatief groot getal, zodat deze helemaal niet meer meegenomen worden tijdens de minimalisatie. Dit vergroot de bias van het model enigszins, maar hierdoor generaliseert de Logistic LASSO wel beter dan een Logistic Regression (ook wanneer dezelfde subset aan variabelen wordt gebruikt) op nieuwe datapunten.

Een ander algoritme wat met hoge dimensionaliteit om kan gaan is een Neural Network. Waar andere modellen veel baat hebben bij feature selection, is dit bij een Neural Network vaak niet het geval, omdat het dit zelf kan. In zijn simpelste variant kan een NN gelijk zijn aan een Logistic Regression, als hij dezelfde vorm heeft en dezelfde verlies functie gebruikt. Aanvullend kunnen vele extra (non-lineaire) lagen worden toegevoegd, waardoor het model een ‘black box’ wordt; wat het precies doet is niet meer duidelijk, alleen dat hij het (goed) doet (ook met betrekking tot feature selection). Met name deze deep learning (neurale netwerken met meerdere lagen) modellen geven vaak erg imposante resultaten. Het blijkt echter vaak dat bij zeer gestructureerde data of bij gebrek aan voldoende observaties een Neural Network het niet per se beter doet dan een Logistic LASSO model, maar wel slechter uit te leggen valt aan medici en meer rekencapaciteit vraagt (lees: meer tijd en energie).

Al met al zijn er meerdere manieren om het modelleren van ‘big data’ uit de zorgsector werkbaar te maken. Allereerst is samenwerking met medisch experts essentieel om de verwerking van de data dichtbij de medische waarheid te houden. Vervolgens is het kiezen van het juiste model voor de te beantwoorden onderzoeksvraag van groot belang. Zowel het verkrijgen van kansen uit het model als de mogelijkheid om met hoog-dimensionale data om te gaan zijn dan belangrijk. Maar dit is natuurlijk slechts het begin, want hoe kom je tot een goede implementatie? Stay tuned voor de volgende blogpost!

  1. http://www.nfu.nl/publicaties/big-data-help-de-dokter-verzuipt/van-big-data-naar-betere-zorg
  2. https://www.nwo.nl/actueel/nieuws/2017/ew/grote-big-data-kansen-voor-zorg-en-welzijn-in-nederland.html
  3. https://www.nictiz.nl/wp-content/uploads/2018/04/Big_data_in_de_gezondheidszorg.pdf

One thought on “Big Data in de gezondheidszorg: de toepassing van Neural Networks & Logistic LASSO

  1. Pingback: Big data in de gezondheidszorg: van model naar implementatie - Ynformed

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *