Hadoop

Hadoop est aujourd’hui la plateforme de référence permettant l’écriture d’application de stockage et de traitement de données distribuées en mode batch.
Hadoop se présente comme un framework mettant à la disposition des développeurs et des administrateurs un certain nombre de briques essentielles :
Les éléments d’infrastucture permettant la mise en place de clusters de stockage et de traitement des données. Le stockage des données s’appuie HDFS, un système de fichier permettant d’héberger les données à traiter sous forme de fichiers distribués.
MapReduce : Un framework Java de traitement distribué qui permet de développer des tâches de traitement sur les données du cluster
Hadoop fournit par ailleurs un ensemble d’outils qui permet le lancement de tâches ainsi que leur suivi à l’échelle du cluster
L’idée principale derrière Hadoop : les données sont automatiquement distribuées dans le cluster par HDFS, les traitements doivent s’effectuer au plus près de la donnée (ce que permet MapReduce). Les transferts de données sont ainsi réduits au minimum.
Hadoop est écrit en Java et soutenu par plusieurs startups américaines. Il est en outre devenu une sorte de standard de fait pour l’écriture d’application de traitement de données ralliant l’ensemble des acteurs majeurs du secteur.

Détails de la solution
  • Version: 2.7.3
  • Distribuée par: Fondation (Apache )
  • Licence: Apache
  • Technologie: Java
  • Année de création :
Site web de la solution : Hadoop
http://hadoop.apache.org
SOLUTIONS EN RELATION