Pig

Pig est un outil de traitement de données qui fait partie de la suite Hadoop et qui permet l’écriture de scripts qui sont éxécutés sur l’infrastructure Hadoop sans être obligé de passer par l’écriture de tâche en Java via le framework MapReduce. Il dispose en outre de fonctionnalités permettant le chargement de données depuis une source externe vers le cluster HDFS ou de fonctionnalités permettant l’export de données pour utilisation par des applications tierces.

Pig s’appuie sur son propre langage nommé Pig Latin. Il permet en outre d’accéder à la couche applicative Java. Ce langage est assez simple ce qui permet au développeur venant d’un autre monde que Java de produire des scripts de traitement s'exécutant sur Hadoop beaucoup plus rapidement.

Dans la pratique, Pig est surtout utilisé pour charger des données externes vers des fichiers HDFS et transformer des fichiers afin de faciliter leur analyse surtout dans des cas où plusieurs étapes sont nécessaires (du fait de la nature procédurale du langage et de sa capacité à stocker des résultats temporaires).

Détails de la solution
  • Version: 0.16.0
  • Distribuée par: Fondation (Apache )
  • Licence: Apache
  • Technologie: Java
  • Année de création : 2008
Site web de la solution : Pig
http://pig.apache.org
SOLUTIONS EN RELATION