FAQ

Comment puis-je apprendre à utiliser Hadoop pour analyser le Big Data ?

Le logiciel Apache connu sous le nom de Hadoop devient une ressource très populaire pour traiter de grands ensembles de données. Ce type de cadre logiciel de traitement des données a été conçu pour aider à agréger les données de manière spécifique, sur la base de conceptions susceptibles de rendre certains types de projets de données plus efficaces. Cela dit, Hadoop n’est qu’un outil parmi tant d’autres permettant de gérer de grands ensembles de données.

L'un des premiers et des plus élémentaires moyens d'en apprendre davantage sur l'analyse du Big Data avec Hadoop consiste à comprendre certains des composants de haut niveau de Hadoop et ce qu'il fait. Celles-ci incluent une « plate-forme de gestion des ressources » Hadoop YARN qui peut être appliquée à certains types de configurations réseau, ainsi qu'un ensemble de fonctions Hadoop MapReduce qui s'appliquent aux ensembles de données volumineuses. Il existe également un système de fichiers distribués Hadoop (HDFS), qui permet de stocker les données sur des systèmes distribués afin qu'elles puissent être indexées ou récupérées rapidement et efficacement.

Au-delà de cela, ceux qui souhaitent se familiariser davantage avec Hadoop peuvent consulter des ressources publiées individuelles destinées aux professionnels qui expliquent le logiciel de manière pertinente. Cet exemple de Chris Stucchio sur un blog personnel fournit un excellent ensemble de points sur Hadoop et l'échelle des données. L’un des points fondamentaux à retenir est que Hadoop peut être plus couramment utilisé que nécessaire et qu’il n’est peut-être pas la meilleure solution pour un projet individuel. L'examen de ces types de ressources aidera les professionnels à se familiariser davantage avec les détails de l'utilisation de Hadoop dans un scénario donné. Stucchio fournit également des métaphores pour relier les fonctions de Hadoop à des tâches physiques spécifiques. Ici, l'exemple consiste à compter le nombre de livres dans une bibliothèque, alors qu'une fonction Hadoop pourrait diviser cette bibliothèque en sections, fournissant des décomptes individuels qui sont fusionnés en un seul résultat de données agrégées.

Les professionnels peuvent en apprendre davantage sur Hadoop et son application au Big Data grâce à des ressources et des programmes de formation spécifiques. Par exemple, la société d'apprentissage en ligne Cloudera, un important fournisseur de sessions de formation à distance, propose un certain nombre d'options intéressantes autour de l'utilisation de Hadoop et de types similaires de traitement des données.