Hadoop est aujourd’hui la plateforme de référence permettant l’écriture d’application de stockage et de traitement de données distribuées en mode batch.
Hadoop se présente comme un framework mettant à la disposition des développeurs et des administrateurs un certain nombre de briques essentielles

A l’image de Pig, Hive permet l’écriture de tâche de traitement de données aux développeurs ne maîtrisant pas Java. Là où Pig définit un langage procédural permettant d’exploiter le cluster, Hive permet de définir des tables structurées de type SQL et de les alimenter avec des données provenant soit du cluster, soit de sources externes...

Pig est un outil de traitement de données qui fait partie de la suite Hadoop et qui permet l’écriture de scripts qui sont éxécutés sur l’infrastructure Hadoop sans être obligé de passer par l’écriture de tâche en Java via le framework MapReduce. Il dispose en outre de fonctionnalités permettant le chargement de données depuis une source externe vers le cluster HDFS ou de fonctionnalités permettant l’export de données pour utilisation par des applications tierces.

Sqoop est un projet de la fondation Apache qui a pour objectif de permettre une meilleure cohabitation des systèmes traditionnels de type SGBDs avec la plateforme Hadoop. Il est ainsi possible d’exporter des données depuis la base de données et de procéder aux traitements coûteux en exploitant le cluster Hadoop.