Tu banner alternativo

Apache ORC

Dans l'article d'aujourd'hui, nous allons plonger dans le monde fascinant de Apache ORC. Quel que soit votre intérêt ou votre préoccupation, nous sommes sûrs que vous trouverez des informations pertinentes et utiles qui vous aideront à mieux comprendre ce sujet. De ses origines à son évolution aujourd'hui, nous plongerons dans les aspects clés qui vous permettront d'approfondir vos connaissances sur Apache ORC. Que vous soyez un expert dans le domaine ou que vous commenciez tout juste à explorer ce sujet, cet article a pour objectif de fournir une vision complète et enrichissante qui vous permet d'élargir vos horizons et d'enrichir votre point de vue sur Apache ORC. Préparez-vous à embarquer pour un voyage de découverte et d’apprentissage qui vous surprendra agréablement !

Tu banner alternativo
Apache ORC
Description de l'image Apache Orc logo.svg.

Informations
Développé par Apache Software FoundationVoir et modifier les données sur Wikidata
Première version [1]Voir et modifier les données sur Wikidata
Dernière version 2.1.0 ()[2]Voir et modifier les données sur Wikidata
Dépôt gitbox.apache.org/repos/asf/orc.gitVoir et modifier les données sur Wikidata
Écrit en C++ et JavaVoir et modifier les données sur Wikidata
Type Format de fichier (en)
Format de sérialisation de données (d)
Projet de la fondation Apache (d)Voir et modifier les données sur Wikidata
Licence Licence Apache 2.0Voir et modifier les données sur Wikidata
Site web orc.apache.orgVoir et modifier les données sur Wikidata

Apache ORC (Optimized Row Columnar) est un format de stockage de données orienté colonne libre et à code source ouvert de l'écosystème Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage en colonnes disponibles dans l'écosystème Hadoop, tels que RCFile et Parquet. Il est compatible avec la plupart des infrastructures de traitement de données de l'environnement Hadoop .

En , Hortonworks a annoncé le format de fichier Optimized Row Columnar (ORC) en collaboration avec Facebook. Un mois plus tard, le format Apache Parquet était annoncé, développé par Cloudera et Twitter[3].

Comparaison

Apache ORC est comparable aux formats de fichier tels RCFile et Parquet - les trois font partie de la catégorie de stockage de données en colonnes dans l'écosystème Hadoop. Ils ont tous une meilleure compression et un meilleur encodage avec des performances de lecture améliorées au prix d'écritures plus lentes.

Notes et références

  1. « https://projects.apache.org/json/projects/orc.json » (consulté le )
  2. « v2.1.0 », (consulté le )
  3. Justin Kestelyn, « Introducing Parquet: Efficient Columnar Storage for Apache Hadoop », Cloudera blog, (consulté le )

Voir aussi