Het ECML/PKDD 2019 congres: de highlights

Afgelopen maand heb ik deelgenomen aan ECML/PKDD 2019, een internationale conferentie over data science en machine learning. De aanleiding hiervoor kwam vanuit mijn masterscriptie: de Universiteit Utrecht raadde me aan om mijn werk in te zenden naar een wetenschappelijke conferentie, omdat de kans op publicatie zeker aanwezig was en het een mooie kennismaking zou zijn met de scientific community. En zo geschiedde. Samen met mijn scriptiebegeleider schreven we een artikel over de scriptie en stuurden deze in voor review. Na een paar weken in spanning tijdens de zomer kwam het mooie nieuws binnen dat ik op vrijdag 20 september, tijdens de workshop over Time Series, mijn werk mocht presenteren. Daarnaast kon ik dus 5 dagen lang praatjes en workshops bijwonen en ik vertel jullie graag over de highlights. 

Data Driven Algorithm Design

Maria Balcan sprak over ‘Data Driven Algorithm Design’. De klassieke manier om een algoritme te ontwerpen is door op zoek te gaan naar de theoretische ‘worst case’ die kan voorkomen de data. Bijvoorbeeld: we willen een algoritme ontwerpen dat een dataset met gegevens over auto’s splits in een aantal groepen. Deze groepen zijn bijvoorbeeld sportauto’s, gezinsauto’s en vrachtwagens. Een ‘worst case’ zou hierin zijn: een dure, snelle, sportieve 7 persoons sedan. Er gaat erg veel tijd in zitten om zulk soort randgevallen in alle voorkomende situaties in de gewenste categorie in te delen. Het advies is dus: begin niet met het nadenken over deze randgevallen, maar los het probleem op een ‘data-driven’ manier op. Begin met een serie simpele algoritmes die in de generieke gevallen goed presteren, en kies dan degene die voor jouw dataset een goed resultaat oplevert. Een verbeterslag kun je dan vervolgens slaan aan de hand van de gevallen die door het simpele algoritme nog niet goed worden verwerkt. Op deze manier voorkom je het onnodig tijd verspillen aan randgevallen die misschien wel helemaal niet in jouw dataset voorkomen. 

Het t-SNE algoritme

Tijdens één van de parallel talks, die slechts 20 minuten duurden, kwam een clustering algoritme aan bod dat ook in de dagelijkse praktijk gemakkelijk toe te passen is, mits je een beetje verstand hebt van Python. Het ging hier om een snelle en flexibele implementatie van het t-SNE algoritme, ontwikkeld door onderzoekers van Yale University. Nalezen van de technische details van het (in mijn ogen, prachtige) algoritme kan hier.

Demonstratie van hoe het algoritme werkt, namelijk dat er voor iedere waarde van a een andere clustering wordt gemaakt.

Aggregatie van data en loss-functie

Ook het praatje van onderzoekers van UCLouvain sprak me erg aan, omdat ik er in mijn werk bij Ynformed veel toepassingen voor zie. De bestaande machine learning algoritmen zijn namelijk ontwikkeld voor datasets waarin kenmerken één-op-één aan elkaar te linken zijn. Je hebt dus mazzel als je twee datasets hebt met informatie over bedrijven: in die situatie kunnen we direct aan de slag. Je hebt pech als één dataset over bedrijven gaat, en een andere dataset over panden: omdat in één pand zich meerdere bedrijven kunnen vestigen, kunnen de meeste machine learning algoritmen in de prullenbak. Er zijn echter twee oplossingen. De eerste mogelijkheid, waarmee we binnen Ynformed veel ervaring hebben, is de aggregatievan data. Om bij het voorbeeld te blijven: door de data van alle bedrijven binnen een pand samen te vatten kan er alsnog een één-op-één koppeling gemaakt worden. Een tweede, minstens zo interessante mogelijkheid, is het ontwikkelen van maatwerk-algoritmen die specifiek geschikt zijn voor data op 2 detailniveaus. De uitdaging is het opstellen van een eigen loss-functie. Voor mij is dit volledig nieuw, maar het lijkt een mooie uitdaging te zijn die er voor zorgt dat informatie niet onnodig verloren gaat om machine learning mogelijk te maken.  

Op vrijdag mocht ik vervolgens de publicatie over mijn scriptie presenteren. Nadat ik in de lunchpauze met mijn scriptiebegeleider Ad Feelders, nog een laatste hand had gelegd aan de presentatie, was het om 16:00 zo ver. Twee dingen vond ik van tevoren belangrijk: dat de focus vooral op de praktische kanten van het project lag, en dat het model dat we zelf specifiek voor deze casus  ontwikkeld hebben genoeg aandacht kreeg. Op beide onderdelen, evenals op de algehele conferentie, kijk ik met veel tevredenheid terug. Wat een leuke en leerzame ervaring! Lees hier meer over mijn afstudeerproject bij Ynformed. 

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *