Apache Hive

Apache Hive
Modifica el valor a Wikidata

Tipusmodel relacional de dades i programari lliure Modifica el valor a Wikidata
Versió inicial9 novembre 2011 Modifica el valor a Wikidata
Versió estable
3.1.3 (9 abril 2022) Modifica el valor a Wikidata
LlicènciaLlicència Apache, versió 2.0 Modifica el valor a Wikidata
Característiques tècniques
Sistema operatiumultiplataforma Modifica el valor a Wikidata
PlataformaMàquina Virtual Java Modifica el valor a Wikidata
Escrit enJava Modifica el valor a Wikidata
Equip
Desenvolupador(s)Apache Software Foundation Modifica el valor a Wikidata
Més informació
Lloc webhive.apache.org Modifica el valor a Wikidata
Seguiment d'errorsSeguiment d'errors Modifica el valor a Wikidata

Facebook: apache.hive Twitter (X): ApacheHive Modifica el valor a Wikidata

Apache Hive és un projecte de programari d'emmagatzematge, agrupament, gestió i anàlisi de dades construït sobre Apache Hadoop. Apache Hive ofereix una interfície semblant a SQL per a consultar i fer anàlisi de dades emmagatzemades en diversos sistemes de fitxers i bases de dades. Inicialment desenvolupat per Meta Platforms (Facebook Inc. en aquell moment), l'eina és ara utilitzada per altres empreses com Netflix. Amazon manté una derivació del programari Apache Hive inclosa en Amazon Elastic MapReduce, eina dels seus serveis AWS.

Característiques

Apache Hive dona suport a l'anàlisi de grans conjunts de dades emmagatzemats amb Apache Hadoop i amb altres sistemes compatibles com el sistema d'emmagatzematge d'arxius Amazon S3. Ofereix un llenguatge de consultes basat en SQL anomenat HiveQL, que permet llegir i convertir consultes de forma transparent a MapReduce, Apache Tez i tasques Spark. Els tres motors d'execució tot just mencionats poden funcionar sota YARN. Per a accelerar les consultes, Apache Hive proveeix l'usuari d'índexs, que inclouen índexs de bitmaps. Altres característiques significatives de Hive són les següents:

  • Diferents tipus d'emmagatzematge, com text, RCFile, HBase, ORC i d'altres.
  • Emmagatzematge de metadades en bases de dades relacionals, fet que permet reduir el temps emprat en verificacions semàntiques durant l'execució de consultes.
  • Operacions sobre dades comprimides emmagatzemades en l'ecosistema Hadoop fent servir algoritmes com el Deflate, BWT, Snappy i d'altres.
  • Funcions definides per l'usuari (comunament UDF, de l'anglès User-Defined Functions), per a manipulació de textos, dates, i altres tipus de memòria. Apache Hive també permet estendre les UDF, propietat útil per a lidiar amb casos no contemplats inicialment per les funcions.

Per defecte, Hive emmagatzema les seves metadades en una base de dades Apache Derby, però pot ser configurat per a utilitzar MySQL.

Referències

  1. Venner, Jason. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 978-1-4302-1942-2. 
  2. «Use Case Study of Hive/Hadoop» (en anglès). .
  3. «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"» (en anglès). .
  4. «Amazon Elastic MapReduce Developer Guide» (en anglès). .
  5. «HiveQL Language Manual» (en anglès). .
  6. «Apache Tez» (en anglès). .
  7. Lam, Chuck. Pro Hadoop (en anglès). Apress, 2009, p. 440. ISBN 1-935182-19-6.