Data Science (gegevenswetenschap)

Als je wilt weten hoe snel een kind groeit, dan heb je data (meetgegevens of meetwaarden) nodig. Die data krijg je door te meten, of door al bestaande data te gebruiken (uit bv. databases). Dat is natuurlijk nogal simpel. Als je wilt weten hoe snel een gemiddeld kind groeit, wordt het al wat lastiger. Hoeveel kinderen moet je meten (sample), welke kinderen meet je (blanken / Aziaten …, kortom de populatie), en hop, je zit zo al in het domein van de statistiek.

Dit is allemaal nog simpele data. Het wordt ingewikkelder als je luchtstromen rond een vliegtuig wilt onderzoeken, of de economie, of DNA genenstrings, of als je een computer gezichten wilt laten identificeren.

Dus of je nu bioloog, bedrijfsleider, arts, informaticus of adviseur bent: je werkt met data die geanalyseerd moet worden. Nu is het opslaan en verwerken van data altijd al een kerntaak geweest voor computerwetenschappers (informatici), en het doen van rekenkundige analyses een specialiteit van wiskundigen en statistici. Maar door de ontwikkeling van de technologie is er steeds meer data beschikbaar, en kan er steeds meer data aan elkaar gekoppeld worden. In die grote hoeveelheden data kunnen nieuwe verbanden ontdekt worden.

Een beroemd voorbeeld komt van een winkelketen die anoniem wenst te blijven. Op basis van het veranderende koopgedrag m.b.t. voeding van zwangere moeders werd er een link gelegd met veranderend koopgedrag van babyspullen. Oftewel, zwangere moeders hebben een ander eetpatroon en kopen babyspullen. Een jong meisje van 16, met klantenkaart, toonde zulk afwijkend koopgedrag voor voeding. Daarop stuurde het bedrijf automatisch reclame voor babyspullen. De vader van het meisje belde het bedrijf boos op. Twee weken later belde hij opnieuw, nu op excuses te maken. Het meisje was wel degelijk zwanger, zonder het zelf te weten… met alle informatie die je in winkels en op internet achterlaat ben je steeds gemakkelijker te voorspellen!

De kunst om data goed te analyseren en verborgen verbanden te ontwaren zou je kunnen scharen onder de noemer data science. Natuurlijk is er al lang aandacht voor het omgaan met data als specialisme. In 1999 kocht ik het boek The Data Handbook van Brand Fortner, dat ik pas veel later las. Dat boek ging nog vooral over het handig opslaan en bewerken van data met behulp van computers. Binnen de kunstmatige intelligentie wordt er al lang nagedacht over het transformeren van ruwe data naar begrip en intelligent gedrag met behulp van patroonherkenning. Oftewel, het is allemaal niet zo nieuw, maar het besef dat er veel samenhang is tussen verschillende vakgebieden en dat het analyseren van data een zelfstandige discipline is plaatst het analyseren van data op meer afstand van het toepassingsgebied.

DataScience Disciplines. By Calvin Andrus (2012).

“Data science” zou een stevig onderdeel moeten zijn van het curriculum van elke universitaire bachelor. Nu wordt er vaak wel statistiek gegeven, maar dat zie ik meer als een vak voorafgaand aan een goede interdisciplinaire vaardigheid op het gebied van gegevensanalyse. Alleen bij informatica en kunstmatige intelligentie zijn veel elementen van data science al lang een deel van het vakgebied. Echter, het is voor elke wetenschappelijke en technologische, en ook voor veel economische activiteit van groot belang dat de data-analyse en -verwerking goed gedaan wordt.

Een interessante voetnoot hierbij is dat de nieuwe methoden op zoek gaan naar willekeurige verbanden in de data. Op veel universiteiten wordt (helaas) aangeleerd dat je eerst heel goed moet formuleren waar je precies naar op zoek gaat. In onderzoeksvoorstellen moet je vaak aangeven wat je verwacht te vinden. Zo ontdek je zelden echt nieuwe dingen. De Leidse sterrenkundige Vincent Icke verwoordt het zo:

Echt onderzoek is een reis door terra incognita, een grillig pad zonder bewijsbaar doel, waar een vooraf aangewezen bestemming bijna nooit blijkt te bestaan. Als je produceert wat je hebt aangekondigd, is het product platvloers of bedrog. Echt onderzoek is een waagstuk, falen is de norm. Elke belofte over resultaten, en a fortiori over toepassingen, is grootspraak. (Vooraf eisen dat wetenschap nut heeft, is belachelijk. Vincent Icke, 2010-03-22, NRC)

De gein is dat met de huidige hoeveelheid data veel van zulk echt onderzoek gedaan kan worden zonder dat het belachelijk veel hoeft te kosten. We hoeven alleen maar handig te worden in het analyseren van bestaande data.

Op Wikibooks staat een goede tutorial, die nog in aanbouw is, maar al een goede start geeft. Lees verder op Data Science: An Introduction

Diverse artikelen en een online community kun je vinden op Data Science Central.

Reacties

✉ Ward op 2013-05-06

Exploratief ben ik het wel met je eens. In zoverre dat ALS er daarmee iets gevonden wordt, vervolgens secuur vervolgonderzoek gedaan zou moeten worden met duidelijke formulering waar men naar op zoek is, etc. Dit om problemen te voorkomen zoals het welbekende voorbeeld van de brandweermannen en de grootte van het vuur:

“Naarmate er meer brandweerauto’s op een melding af zijn gegaan, blijkt het vuur groter te zijn geweest. Een oplossing zou zijn, minder brandweerauto’s te versturen.”

Nu is in dit voorbeeld vrij duidelijk dat er een verkeerde logica wordt toegepast. Met andere data is dit wellicht niet zo vanzelfsprekend, mede doordat er te weinig over bekend is of er te onduidelijk is geformuleerd wat er eigenlijk gezocht/verwacht werd.

Of zoals Andy Field het in zijn geweldige boek over statistiek en het gebruik van SPSS (Discovering Statistics using SPSS, 2e editie, 2005, pagina 23 en 24) aan de hand van een weddenschap op wie een rugby wedstrijd gaat winnen uitlegt: Door tijdens je data collectie, of achteraf hypotheses en/of analyses te veranderen, maak je het alleen maar waarschijnlijker dat je significante resultaten zult vinden die niemand zal kunnen reproduceren (“Which is very embarrassing!”).

✉ Evert Mouw op 2013-05-06

Hoi Ward,

Exploratief is ’t inderdaad super, en het fundamentele onderzoek waar o.a. Icke op doelde is natuurlijk ook exploratief. Als er dan iets gevonden wordt is ’t vooral belangrijk dat duidelijk geformuleerd wordt wat er gevonden is — en hoe het gevonden is. Let ook op Icke’s zinsnede “falen is de norm”. Door van tevoren verwachtingen te formuleren wordt die instelling om zeep geholpen. Als je vooraf niet al teveel hypotheses opstelt hoef je ze ook niet achteraf te veranderen. Je kunt ook niet vooraf formuleren wat je nog niet kent, en wat je al kent hoef je niet te gaan ontdekken met exploratief onderzoek.

Data verzamelen hoort dus vooraf te gaan aan het opstellen van verklaringen, tenzij het verifiërend onderzoek betreft, en dat soort onderzoek is (helaas) zeer zeldzaam, behalve voor geneesmiddelen waar het verplicht is.

Natuurlijk zijn we het eigenlijk eens 😉 Je stelde het voor wat betreft exploratief onderzoek met me eens te zijn, maar je geeft ook nuttige kanttekeningen voor verifiërend onderzoek. Een onderscheid dat in mijn artikeltje ontbreekt. En inderdaad, tijdens het onderzoek de definitie wijzigen van wat je wil verifiëren, vaak om “aangename resultaten” te krijgen, is natuurlijk not done.

Dank overigens voor je goede voorbeelden en referenties.

Deze blogpost werd in december 2022 overgezet van WordPress naar een methode gebaseerd op Markdown; het is mogelijk dat hierbij fouten of wijzigingen zijn ontstaan t.o.v. de originele blogpost.