Big data

In de wereld van vandaag is Big data een kwestie die steeds relevanter is geworden in de samenleving. Sinds zijn opkomst is Big data onderwerp van debat en belangstelling geweest, waardoor tegenstrijdige meningen zijn ontstaan ​​en de nieuwsgierigheid van zowel experts als leken is gewekt. Of het nu vanwege de impact ervan op het dagelijks leven, de historische relevantie of de invloed ervan op verschillende gebieden is, Big data heeft zichzelf gevestigd als een onderwerp van mondiaal belang. In dit artikel zullen we de verschillende facetten van Big data onderzoeken en het belang ervan in de huidige context bespreken.

Big data of massadata zijn gegevensverzamelingen (datasets) die te groot en te weinig gestructureerd zijn om met reguliere databasemanagementsystemen te worden onderhouden. De gegevens hebben een direct of indirect verband met privégegevens van personen. Big data spelen een steeds grotere rol. De hoeveelheid data die opgeslagen wordt, groeit exponentieel. Dit komt doordat consumenten bij sociale media in toenemende mate data opslaan in de vorm van bestanden, foto's en films (bijvoorbeeld op Facebook of YouTube, waar Facebook ook de door de gebruikers gewiste data bewaart) en organisaties, overheden en bedrijven steeds meer data over burgers produceren en opslaan, en doordat apparaten zelf data verzamelen, opslaan en uitwisselen (het zogenaamde internet der dingen). Hierdoor is er steeds meer sensordata beschikbaar. Niet alleen de opslag van deze hoeveelheden is een uitdaging, maar ook het analyseren ervan. Deze data bevatten namelijk informatie voor doeleinden zoals marketing, wetenschappelijk onderzoek, of preventief onderhoud.

Definitie

De definitie van big data is niet altijd duidelijk en de term wordt soms ten onrechte gebruikt. Volgens Gartner gaat het om drie factoren:

  • de hoeveelheid data;
  • de snelheid waarmee de data binnenkomen en/of opgevraagd worden;
  • de diversiteit van de data. Hiermee wordt met name bedoeld dat de data ongestructureerd zijn en niet in een traditionele database opgeslagen kunnen worden.

Als aan minimaal twee van bovenstaande kenmerken aanwezig zijn, spreekt men in het algemeen over big data.

Drie andere kenmerken zijn:

  • de variatie in de data. M.a.w. verschillende bronnen kunnen elkaar tegenspreken en het geheel extra compliceren;
  • de kwaliteit van de data: de ene bron is minder betrouwbaar dan de andere;
  • de complexiteit van de data: de mate waarin ongestructureerde data van verschillende bronnen met elkaar te combineren zijn.

In het Engels worden deze eigenschappen vaak aangeduid als 'de v's', volume, velocity en variety voor de eerste drie kenmerken en variability en veracity voor variatie en kwaliteit.

Soorten gegevens

De gegevens in big data kunnen worden onderscheiden in primaire bronnen (waar daadwerkelijk gegevens worden gegenereerd) en secundaire bronnen (waarbij bestaande gegevens worden gekoppeld en hergebruikt).

Primaire bronnen

Conform de Wet van Moore verdubbelt ongeveer elke twee jaar de rekencapaciteit en het opslagvermogen van microchips. Door deze exponentiële groei en het inzakken van de kosten, raakt technologie steeds verder verspreid en ingebed in de samenleving. In toenemende mate is de technologie uitgerust met sensoren die data vastleggen en/of doorgeven. Grote hoeveelheden gegevens worden gegenereerd door onder meer sensoren (zoals camera's en microfoons), trackers (zoals RFID-tags en cookies op internet) en apparaten die we bij ons dragen of in huis hebben en op het internet of things zijn aangesloten (zoals mobiele telefoons, horloges, brillen, gehoorapparaten, pacemakers). Daarnaast leggen veel mensen gegevens over zichzelf vast op sociale media.

Secundaire bronnen

Door het hergebruik van gegevens, bijvoorbeeld via het combineren van bestaande datasets, kunnen ook big data ontstaan. Het hergebruik van gegevens kan worden onderscheiden in hergebruik voor dezelfde doelen in dezelfde context (data recycling), voor andere doelen dan waarvoor de gegevens initieel zijn verzameld, maar wel in dezelfde context als het originele doel (data repurposing) of in een andere context (data recontextualisation). Hergebruik van gegevens voor nieuwe doelen of in een andere context kan stuiten op de wettelijke kaders voor de bescherming van persoonsgegevens.

Datascientist

Big data hebben tot de opleving van het vakgebied van de datascientist en een hernieuwde belangstelling voor het beroep van data-analist geleid. Hierbij gaat het om de statistische analyse van de gegevens, waarbij men nog onbekende verbanden probeert te ontdekken. Er is geen vastomlijnde definitie van een datascientist, maar over het algemeen heeft een datascientist veel kennis van metadata en dataconversie in combinatie met meer algemene kennis over de verwerking van gegevensbestanden, programmeren en wiskunde.

Data concierge

Een data concierge is iemand die big data verzamelt en consolideert tot bruikbare informatie. Deze persoon is vaak het eerste aanspreekpunt voor onderzoekers die toegang tot specifieke datasets willen voor specifieke onderzoeksvragen. De verzoeken wisselen van eenvoudige gegevens met minimale regelgevingsproblemen tot geanonimiseerde, beperkte of volledige PHI-gegevenssets.

De IT-industrie richt zich vaker op nieuwe gegevensbronnen, die voornamelijk over consumenten worden verzameld, waardoor de functie van een data concierge de afgelopen jaren steeds gebruikelijker is geworden.

Toepassingen

Prof. dr. ir. Liesbet Peeters (UHasselt) over hoe big data in de gezondheidszorg levens kunnen redden - Universiteit van Vlaanderen

De grootste verzamelaars van persoonlijke big data zijn de sociale media en overheden met als belangrijkste doel fraudebestrijding, zoals in Nederland iCov en het Inlichtingenbureau. De Amerikaanse spionagedienst National Security Agency (NSA) verzamelt data uit communicatie via telefonie en internet met Google en Facebook.

  • De Large Hadron Collider heeft 150 miljoen sensoren, die samen zo'n 40 miljoen metingen per seconde doen. Het verwerken van dit grote aantal metingen en het trekken van conclusies daaruit vereist veel rekenkracht.
  • Het Amerikaanse bedrijf Walmart verwerkt meer dan een miljoen transacties per uur, die op een slimme manier in databases opgeslagen moeten worden. Uit deze grote berg gegevens kunnen verbanden tussen verschillende producten gedestilleerd worden (bijvoorbeeld hamburgers en broodjes, maar in veel gevallen zijn de verbanden minder voor de hand liggend). Ook kunnen klanten op basis van hun aankoopgedrag ingedeeld worden naar diverse kenmerken. Door geavanceerde statistische analyses uit te voeren kan Walmart niet alleen vrij nauwkeurig inschatten wat het geslacht, inkomen, de sociale klasse en de gezinssituatie van een klant is, maar kunnen ook levensgebeurtenissen zoals huwelijk, geboorte, echtscheiding en overlijden met vrij grote precisie gedetecteerd worden aan de hand van veranderingen in aankoopgedrag.
  • Big data: de Shell search is de titel van een Nederlandse tv-documentaire, een experiment in onderzoeksjournalistiek uit 2013, over hoe het doorzoeken van big data journalistiek nieuws kan opleveren over de handel en wandel van een multinational.
  • Toen in 2009 de Mexicaanse griep toesloeg, kon Google de verspreiding volgen door te zien in welke regio's naar griepgerelateerde klachten werd gezocht. Deze analyse werd wel vertroebeld doordat veel mensen die via het nieuws over de ziekte hadden gehoord, al gingen zoeken terwijl ze (nog) niet ziek waren.

Wettelijke kaders persoonsgegevens

De Algemene verordening gegevensbescherming (AVG) regelt de omgang met persoonsgegevens, en definieert de rechten van individuen en de plichten voor partijen die persoonsgegevens verwerken. De werking van de AVG is breed: zij is van toepassing op alle tot een persoon herleidbare gegevens en vormt een belangrijk uitgangspunt voor de verantwoorde omgang met persoonsgegevens.

onbekendheid met en onzekerheid over de toepassing en implicaties van wettelijke eisen hun parten speelt. Daarnaast worden sommige eisen als lastig en zelfs als onuitvoerbaar ervaren. Een verantwoorde verwerking van gegevens biedt alle partijen echter voordelen. Consumenten zullen eerder bereid zijn om gegevens te delen in het vertrouwen dat bedrijven zorgvuldig met hun gegevens omgaan en er mogelijkheden zijn tot controle en verantwoording. Bedrijven profiteren van het vertrouwen dat consumenten in hen stellen en kunnen daardoor datagedreven producten en diensten blijven ontwikkelen. Het maakt bovendien de bedrijfsvoering rond gegevens inzichtelijk en controleerbaar en ondervangt daarmee bepaalde risico’s zoals datalekken. De wetgeving, die soms wordt ervaren als een last, kan als een prikkel fungeren om op verantwoorde wijze met persoonsgegevens om te gaan en daarin nationaal en internationaal zelfs onderscheidend te zijn.

Benodigde kaders

Big data kunnen volgens de Wetenschappelijke Raad voor het Regeringsbeleid uitsluitend vruchten afwerpen als de huidige wet- en regelgeving wordt versterkt om fundamentele rechten en vrijheden te waarborgen. Hiertoe moet de aandacht worden verlegd van het reguleren van het verzamelen van data – het zwaartepunt in de huidige juridische kaders – naar de regulering van en het toezicht op de fases van de analyse en het gebruik van big data. Voor de vrijheid en de veiligheid van de burgers doen zich in deze twee fasen van big-dataprocessen de grootste kansen én de grootste risico’s voor.

Veiligheidsorganisaties kunnen en mogen diep ingrijpen in de rechten en vrijheden van burgers. Het gebruik big-datatoepassingen - die sturend voor dat ingrijpen worden - moet daarom met extra waarborgen worden omkleed. Dat kan door:

  • te zorgen voor een wettelijke verankering van de verantwoordelijkheid van de gegevensverwerkende partij voor de juistheid van de uitkomsten van big-dataprocessen.
  • regels op te stellen over toelaatbare foutmarges bij profiling.
  • te zorgen voor een strikte handhaving van het verbod op geautomatiseerde besluitvorming en semi-automatische besluitvorming te bestrijden.
  • Vergroot de transparantie over het gebruik van big-data-analyses binnen het veiligheidsdomein, zowel bij individuele organisaties als bij samenwerkingsverbanden van organisaties.
  • de mogelijkheden voor burgers en maatschappelijke organisaties te verbeteren om wetgeving en beleid omtrent big-datatoepassingen juridisch te (laten) toetsen.

Het gebruik van big data, het internet of things en kunstmatige intelligentie tast (mogelijk) de grondrechten in Nederland aan.

Voor- en nadelen

Het analyseren van big data wordt ingezet voor het bestrijden van criminaliteit (waaronder fraude), het reconstrueren van aanslagen en in kaart brengen van criminele netwerken om daders gemakkelijker op te sporen, het controleren van crisissituaties, en voor crowd control bij evenementen. Als voordeel geldt dat hierbij tijdwinst en efficiëntie wordt behaald en dat de gegevens in real time kunnen worden verwerkt. Politiemensen en veiligheidsfunctionarissen kunnen bijvoorbeeld snel een beeld krijgen van een situatie ter plaatse.

Als nadeel geldt de grootschalige inmenging in de persoonlijke levenssfeer - ook van niet-criminele burgers - waarbij privacy en vrije meningsuiting in gevaar zijn. Dit kan tot gevolg hebben dat de samenleving haar gedrag daarop aanpast. Verder worden burgers steeds transparanter terwijl de persoons- en organisatie-profielen, algoritmen en methoden die overheidsorganisaties gebruiken dit niet zijn. Big data-toepassingen kunnen leiden tot toename in sociale stratificatie waardoor er (grotere) ongelijke verhoudingen tussen maatschappelijke groepen ontstaan.

Big data-toepassingen kunnen andere doelen hebben dan waarvoor de data in beginsel voor waren verzameld (zogeheten function creep), aangezien secundair gebruik van big data-toepassingen een meerwaarde zijn op van de verzamelde data.

Zie ook