Jeu de données

Dans cet article, nous explorerons Jeu de données sous différentes perspectives, en approfondissant son importance, son impact et sa pertinence dans différents domaines. Jeu de données est un sujet qui a retenu l'attention des experts et des passionnés, générant un débat et une réflexion autour de ses implications. Tout au long de ces pages, nous analyserons les aspects clés de Jeu de données, de son histoire à son évolution aujourd'hui, en passant par son influence sur la société et sa projection future. A travers des entretiens, des analyses et des témoignages, nous souhaitons faire la lumière sur Jeu de données et offrir au lecteur une vision complète et enrichissante de ce sujet si d'actualité aujourd'hui. Rejoignez-nous dans ce voyage passionnant à travers l'univers de Jeu de données !

Représentation du jeu de données Iris sur ses quatre dimensions

Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique).

Structure d'un jeu de données

Un jeu de données peut avoir une structure tabulaire, par exemple un fichier CSV, une structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe, comme dans le RDF.

Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et chaque colonne à une variable.

Typologie

En statistiques et en économétrie, on distingue les séries temporelles (ou série chronologique) dans lesquelles on observe une unité statistique à différentes périodes, les données en coupe pour lesquelles on observe plusieurs unités statistiques pour une période donnée et les données de panel pour lesquelles on observe plusieurs unités statistiques à différentes périodes.

En apprentissage automatique, on distingue le jeu de données d'apprentissage, le jeu de données de validation et le jeu de données de test.

Exemples

Annexes

Articles connexes

Bibliographie

Références

  1. a et b (en) Hadley Wickham, « Tidy Data », Journal of Statistical Software, vol. 59, no 10,‎ , p. 1-23 (DOI 10.18637/jss.v059.i10)
  2. Cameron et Trivedi 2005, p. 47