Dataset

Dit artikel gaat in op het onderwerp Dataset, dat grote belangstelling heeft gewekt in verschillende delen van de samenleving. Jarenlang is Dataset het onderwerp geweest van talrijke studies en onderzoeken, waardoor er meer kennis ontstond over het belang en de relevantie ervan in verschillende contexten. Op dezelfde manier heeft Dataset debatten en controverses veroorzaakt vanwege de implicaties ervan in het dagelijks leven van mensen. Met dit artikel willen we een uitputtende analyse van Dataset bieden, rekening houdend met de vele facetten ervan en de impact ervan op de huidige samenleving.

Een gegevensverzameling of dataset is een verzameling van gegevens (data), meestal gepresenteerd in tabelvorm. Elke kolom vertegenwoordigt een bepaalde variabele. De dataset representeert dan een verzameling rijen (ook records genoemd), elk voor één object (in de ruime zin van het woord, het kunnen bijvoorbeeld ook personen zijn). Een rij bevat de waarden voor elk van de variabelen, of attributen, voor het betreffende object, bijvoorbeeld lengte en gewicht.

Een verzameling rijen is op zichzelf niet geordend. Een weergave met de rijen in een andere volgorde is dan niet de weergave van een andere dataset. Ordening kan op basis van de waarde van een variabele. De rijen kunnen ook geordend zijn, los van de waarden van de variabelen.

Als de datatabel van de al of niet geordende dataset maar één kolom heeft wordt deze wel vereenzelvigd met de betreffende (respectievelijk niet of wel) geordende multiset (die eventueel een verzameling is).

Een gegevensverzameling niet in tabelvorm kan de vorm hebben van een karakterstring, zoals een XML-bestand.

Geschiedenis

De term dataset is afkomstig uit de tijd van de mainframes, waar gegevensverzameling een precies omschreven betekenis bij IBM-mainframes had. Deze betekenis wordt hier niet behandeld.

Eigenschappen

Een gegevensverzameling heeft verscheidene kenmerken die de structuur en eigenschappen bepalen. Daartoe behoren het aantal en het type van de variabelen en de verschillende statistische kengetallen die erop van toepassing zijn, zoals gemiddelde, standaardafwijking, scheefheid.

In het eenvoudigste geval is er slechts één variabele en bestaat de dataset uit een enkele kolom met waarden, vaak voorgesteld als een lijst. In tegenstelling tot wat de naam doet vermoeden, is zo'n univariate dataset geen verzameling in de gewone wiskundige betekenis, aangezien een bepaalde waarde meer keren kan voorkomen. Als de volgorde er niet toe doet, kan de dataset opgevat worden als een multiset in plaats van een (geordende) lijst.

De waarden kunnen getallen zijn, maar ook gegevens van nominaal of ordinaal niveau zijn. Voor elke variabele zullen normaal gesproken de waarden van hetzelfde niveau zijn, al kunnen er wel gegevens ontbreken, wat op een of andere manier dient te worden aangegeven.

In de statistiek zijn datasets gewoonlijk het resultaat van een steekproef en bevat elke rij de waarnemingen aan een element van de populatie. Sommige moderne statistische software, zoals SPSS, gebruikt nog steeds de klassieke vorm van een dataset voor de gegevens.

Klassieke datasets

Er bestaan in de statistische literatuur enkele klassieke datasets die uitvoerig geanalyseerd zijn:

Externe links