N = Alles
Big Data
Revolutie
Onbeantwoorde vragen
Het is al jaren geleden. Hoe goed herinner ik mij dat we aan de slag gaan. Bij een zorgverzekeraar. Een gemotiveerd groepje samen met externe experts. Werken met wat we nu Big Data zouden noemen. Niks steekproef… We beschikken over pakweg 1 miljoen “schaderegels”. Een tamelijk compleet bestand. Duidelijk te veel voor een exercitie in Excel. Dit complete bestand hebben we onderworpen aan datamining. De interessante dingen zitten ook in de extremen (van de verdeling volgens Gauss). Waarom gaat een verzekerde in één jaar naar tien verschillende specialismen over het land verspreid? Of gebruiken meerdere mensen misschien dezelfde identiteit? Veel vragen. Helaas is deze exercitie om voor mij onnaspeurlijke redenen plotsklaps gestaakt. Sterker, de hele afdeling wordt opgeheven.
DBC Codering (2007)
Correlaties
Datamining is weer helemaal terug, zeker bij zorgverzekeraars. Er moet zelfs een tandje worden bijgezet volgens de overheid. In het kersverse boek Big Data Revolutie, wordt gesteld dat de tijd van steekproeven een beetje achter ons ligt. N= alles. Dat betekent dat complete bestanden worden geanalyseerd en totaal nieuwe correlaties worden gevonden. Die soms causaliteit zullen betekenen. Daarbij worden algoritmes belangrijk, maar zeker niet alles bepalend. De (soms overstelpende) hoeveelheid data (en dat kunnen ook tekstbestanden zijn) is doorslaggevend, zoals blijkt in de casus Microsoft (pagina 57). Ook het ‘schonen’ wordt minder relevant. Dat daarmee de wereld gaat veranderen is ook voor mij een absolute zekerheid. Advies: dit boek maar eens aanschaffen!