S'imposant peu à peu comme la solution standard pour les projets Big Data, Hadoop est un framework composé de divers outils permettant de traiter des volumes de données considérables. Base de tout projet de Big Data, le stockage des données revêt une dimension stratégique puisque de son organisation initiale et de sa qualité dépendront la pertinence et l'efficacité de leur exploitation. A l'issue de cette formation, les architectes et administrateurs en charge de la mise en oeuvre et de la gestion d'une solution Big Data seront à même d'utiliser les différents outils fournis par la distribution Cloudera de Hadoop pour mener à bien leur mission.
Objectifs de cette formation
Hadoop - Cloudera pour architectes et administrateurs - Savoir élaborer une architecture Hadoop
- Comprendre comment Hadoop Distributed File System (HDFS) et Yarn/MapReduce fonctionnent
- Être en mesure d'exploiter et gérer un cluster Hadoop
- Apprendre à configurer Hadoop et ses outils
- Pouvoir mettre en oeuvre un cluster Hadoop
- Comprendre comment gérer la maintenance des noeuds dans un cluster
- Savoir déplacer et gérer les données dans un cluster
- Être capable d'administrer un cluster Hadoop
- Administrateurs systèmes et personnes qui gèrent et maintiennent les clusters Apache Hadoop en production ou qui évoluent dans un environnement de développement
Introduction
- Présentation générale d'Hadoop
- Exemples d'utilisation dans différents secteurs
- Historique et chiffres clés : Quand parle-t-on de Big Data ?
- Les possibilités d'implantation de l'infrastructure et les coûts associés
L'écosystème d'Hadoop
- Le système de fichier HDFS
- Le paradigme MapReduce et l'utilisation à travers YARN
- Le garant des informations : Zookeeper
- Le système de stockage de la donnée basé sur le socle : HBase
- La présentation de l'architecture globale : où installer les services ?
- La définition du dimensionnement pour un cluster Hadoop
- Les particularités de MapR
Installation du socle d'Hadoop
- Installation et configuration manuelle pas-à-pas sur plusieurs machines de : HDFS, YARN, Zookeeper, HBase
Manipulation des données dans un cluster Hadoop
- Architecture, objectif et fonctionnement de : Hue, Hive, Pig, Oozie, Sqoop, Flume, Spark
- Mise en pratique sur les différents outils
Exploitation d'un cluster Hadoop
- Architecture, objectif et fonctionnement du manager : MapR Control System
- Mise en pratique
Concepts d'architecture complexe
- Architecture en rack : les avantages et fonctionnement et paramétrage du rack awareness
- Scalabilité et performances : le Namenode Federation
- High Availability des serveurs maitres
- Utilisation des snapshots : sauvegarde et restauration
Les plus de cette formation
Hadoop - Cloudera pour architectes et administrateurs - L'apprentissage par la pratique : les différents points traités pendant la formation sont illustrés par des exercices pratiques permettant la consolidation des acquis.
- Les phases théoriques sont illustrées d'exemples concrets.