This page was exported from Furor Teutonicus [ https://www.furorteutonicus.eu ]
Export date: Wed Apr 14 4:13:10 2021 / +0000 GMT

Data Science (gegevenswetenschap)


Als je wilt weten hoe snel een kind groeit, dan heb je data (meetgegevens of meetwaarden) nodig. Die data krijg je door te meten, of door al bestaande data te gebruiken (uit bv. databases). Dat is natuurlijk nogal simpel. Als je wilt weten hoe snel een gemiddeld kind groeit, wordt het al wat lastiger. Hoeveel kinderen moet je meten (sample), welke kinderen meet je (blanken / Aziaten ..., kortom de populatie), en hop, je zit zo al in het domein van de statistiek.

Dit is allemaal nog simpele data. Het wordt ingewikkelder als je luchtstromen rond een vliegtuig wilt onderzoeken, of de economie, of DNA genenstrings, of als je een computer gezichten wilt laten identificeren.

Dus of je nu bioloog, bedrijfsleider, arts, informaticus of adviseur bent: je werkt met data die geanalyseerd moet worden. Nu is het opslaan en verwerken van data altijd al een kerntaak geweest voor computerwetenschappers (informatici), en het doen van rekenkundige analyses een specialiteit van wiskundigen en statistici. Maar door de ontwikkeling van de technologie is er steeds meer data beschikbaar, en kan er steeds meer data aan elkaar gekoppeld worden. In die grote hoeveelheden data kunnen nieuwe verbanden ontdekt worden.

Een beroemd voorbeeld komt van een winkelketen die anoniem wenst te blijven. Op basis van het veranderende koopgedrag m.b.t. voeding van zwangere moeders werd er een link gelegd met veranderend koopgedrag van babyspullen. Oftewel, zwangere moeders hebben een ander eetpatroon en kopen babyspullen. Een jong meisje van 16, met klantenkaart, toonde zulk afwijkend koopgedrag voor voeding. Daarop stuurde het bedrijf automatisch reclame voor babyspullen. De vader van het meisje belde het bedrijf boos op. Twee weken later belde hij opnieuw, nu op excuses te maken. Het meisje was wel degelijk zwanger, zonder het zelf te weten... met alle informatie die je in winkels en op internet achterlaat ben je steeds gemakkelijker te voorspellen!

De kunst om data goed te analyseren en verborgen verbanden te ontwaren zou je kunnen scharen onder de noemer data science. Natuurlijk is er al lang aandacht voor het omgaan met data als specialisme. In 1999 kocht ik het boek The Data Handbook van Brand Fortner, dat ik pas veel later las. Dat boek ging nog vooral over het handig opslaan en bewerken van data met behulp van computers. Binnen de kunstmatige intelligentie wordt er al lang nagedacht over het transformeren van ruwe data naar begrip en intelligent gedrag met behulp van patroonherkenning. Oftewel, het is allemaal niet zo nieuw, maar het besef dat er veel samenhang is tussen verschillende vakgebieden en dat het analyseren van data een zelfstandige discipline is plaatst het analyseren van data op meer afstand van het toepassingsgebied.

DataScience Disciplines
DataScience Disciplines. By Calvin Andrus (2012).


"Data science" zou een stevig onderdeel moeten zijn van het curriculum van elke universitaire bachelor. Nu wordt er vaak wel statistiek gegeven, maar dat zie ik meer als een vak voorafgaand aan een goede interdisciplinaire vaardigheid op het gebied van gegevensanalyse. Alleen bij informatica en kunstmatige intelligentie zijn veel elementen van data science al lang een deel van het vakgebied. Echter, het is voor elke wetenschappelijke en technologische, en ook voor veel economische activiteit van groot belang dat de data-analyse en -verwerking goed gedaan wordt.

Een interessante voetnoot hierbij is dat de nieuwe methoden op zoek gaan naar willekeurige verbanden in de data. Op veel universiteiten wordt (helaas) aangeleerd dat je eerst heel goed moet formuleren waar je precies naar op zoek gaat. In onderzoeksvoorstellen moet je vaak aangeven wat je verwacht te vinden. Zo ontdek je zelden echt nieuwe dingen. De Leidse sterrenkundige Vincent Icke verwoordt het zo:
Echt onderzoek is een reis door terra incognita, een grillig pad zonder bewijsbaar doel, waar een vooraf aangewezen bestemming bijna nooit blijkt te bestaan. Als je produceert wat je hebt aangekondigd, is het product platvloers of bedrog. Echt onderzoek is een waagstuk, falen is de norm. Elke belofte over resultaten, en a fortiori over toepassingen, is grootspraak. (Vooraf eisen dat wetenschap nut heeft, is belachelijk. Vincent Icke, 2010-03-22, NRC)

De gein is dat met de huidige hoeveelheid data veel van zulk echt onderzoek gedaan kan worden zonder dat het belachelijk veel hoeft te kosten. We hoeven alleen maar handig te worden in het analyseren van bestaande data.

Op Wikibooks staat een goede tutorial, die nog in aanbouw is, maar al een goede start geeft. Lees verder op Data Science: An Introduction

Diverse artikelen en een online community kun je vinden op Data Science Central.
Excerpt: Data science als opkomend vakgebied, dat van belang is voor veel toepassingsgebieden.
Post date: 2013-05-06 12:16:35
Post date GMT: 2013-05-06 11:16:35
Post modified date: 2014-11-28 13:53:13
Post modified date GMT: 2014-11-28 12:53:13
Powered by [ Universal Post Manager ] plugin. HTML saving format developed by gVectors Team www.gVectors.com