Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation Big Data - Les fondamentaux de l'analyse de données
Technique

Formation Big Data - Les fondamentaux de l'analyse de données

Acquérir une première expérience du Big Data

Comprendre les besoins métier pour livrer aux décideurs des indicateurs fiables et pertinents, tel est le rôle attendu des spécialistes Big Data. Précisément conçu pour leur apporter une première approche de la mise en oeuvre d'une solution de Big Data en environnement Hadoop, solution phare pour les traitements Big Data, ce programme reprend le cheminement logique d’un projet d’analyse de données. De leur collecte initiale à la mise en place d’une solution de stockage HDFS permettant d’organiser un très grand volume d’information, à l'initiation a la réalisation de programmes Pig et Hive qui, convertis en tâches MapReduce, permettent d’agréger et de filtrer les données pour finalement les analyser, tous les aspects seront abordés.
Objectifs de cette formation Big Data - Les fondamentaux de l'analyse de données
  • Comprendre le rôle stratégique de la gestion des données pour l’entreprise
  • Identifier ce qu’est la donnée, et en quoi consiste le fait d’assurer la qualité de données
  • Synthétiser le cycle de vie de la donnée
  • Assurer l’alignement des usages métiers avec le cycle de vie de la donnée
  • Découvrir les bonnes pratiques en matière de contrôle de qualité des données
  • Assurer la mise en oeuvre de la gouvernance de la donnée
  • Disposer d’un premier aperçu des possibilités de traitement proposé par MapR et Hadoop
Public
  • MOA, chef de projet, urbaniste fonctionnel, responsable de domaine, analystes, développeurs, data miners ...
  • Futurs data scientists, data analysts et data stewards
Pré-requis
Programme détaillé
En présentielEn Présentiel

Les nouvelles frontières du Big Data (Introduction)

  • Immersion
  • L’approche des 4 Vs
  • Cas d'usages du Big Data
  • Technologies
  • Architecture
  • Stockage
  • Machine Learning
  • Data Scientist et Big Data
  • Compétences
  • La vision du Gartner
En présentielEn Présentiel

La collecte des données Big Data

  • Typologie des sources
  • Les données non structurées
  • Typologie 3V des sources
  • Les données ouvertes (Open Data)
  • Caractéristiques intrinsèques des sources
  • Nouveau paradigme de l’ETL à l’ELT
  • Du "schema On Write" au "Schema on Read"
  • Le concept du Data Lake
  • La vision d’Hortonworks
  • Les collecteurs Apache on Hadoop
  • SQOOP versus NIFI
  • Apache SQOOP - Présentation
  • Apache NIFI - Présentation
  • Les API de réseaux sociaux
En présentielEn Présentiel

Le calcul massivement parallèle

  • Genèse et étapes clés
  • Hadoop : Fonctions coeurs
  • HDFS - Différenciation
  • HDFS - Un système distribué
  • HDFS - Gestion des blocs et réplication
  • Exemples de commandes de base HDFS
  • MapReduce : aspects fonctionnels et techniques
  • Apache PIG et Apache HIVE
  • Comparatif des 3 approches
  • Les limitations de MapReduce
  • L’émergence de systèmes spécialisés
  • Le moteur d'exécution Apache TEZ
  • La rupture Apache SPARK
  • SPARK point clés principaux
  • SPARK vs Hadoop Performance
  • L’écosystème SPARK
  • Hive in Memory : LLAP
  • Vers une prochaine Révolution
En présentielEn Présentiel

Les nouvelles formes de stockage

  • Enjeux
  • Le “théorème” CAP
  • Nouveaux standards : ACID => BASE
  • Les bases de données NoSQL
  • Panorama des solutions
  • Positionnement CAP des éditeurs NoSQL
  • Les bases de données Clé-Valeur
  • Focus Redis
  • Les Bases de données Document
  • Focus mongoDB
  • Les bases de données colonnes
  • Focus HBase
  • Les bases de données Graphes
  • Tendances 1 : NoSQL Acid
  • Tendances 2 : OLAP distribué
En présentielEn Présentiel

Le Big Data Analytics (Partie I - Fondamentaux)

  • Analyse de cas concrets
  • Définition de l’apprentissage machine
  • Exemples de tâches (T) du machine learning
  • Que peuvent apprendre les machines ?
  • Les différentes expériences (E)
  • L’apprentissage
  • Approche fonctionnelle de base
  • Les variables prédictives
  • Les variables à prédire
  • Les fonctions hypothèses
  • Pléthore d’algorithmes
  • Choisir un algorithme d’apprentissage machine
  • Sous et sur-apprentissage
  • La descente de gradient
  • Optimisation batch et stochastique
  • Anatomie d’un modèle d’apprentissage automatique
  • La chaîne de traitement standard
  • Composantes clés et Big Data
  • Trois familles d'outils machine learning
  • Les librairies de machine learning standards et Deep Learning
  • Les plates-formes de Data Science
En présentielEn Présentiel

Le Big Data Analytics (Partie II - L’écosystème SPARK )

  • Les différents modes de travail avec Spark
  • Les trois systèmes de gestion de cluster
  • Modes d'écriture des commandes Spark
  • Les quatre API Langage de Spark
  • Le machine learning avec Spark
  • Spark SQL - Le moteur d'exécution SQL
  • La création d’une session Spark
  • Spark Dataframes
  • Spark ML
  • L'API pipeline
  • Travail sur les variables prédictives
  • La classification et la régression
  • Clustering et filtrage coopératif
En présentielEn Présentiel

Traitement en flux du Big Data (​streaming​ )

  • Architectures types de traitement de Streams Big Data
  • Apache NIFI - Description, composants et interface
  • Apache KAFKA - Description, terminologies, les APIs
  • Articulation NIFI et KAFKA (NIFI ON KAFKA)
  • Apache STORM - Description, terminologies, langage (agnostique)
  • Articulation KAFKA et STORM (KAFKA ON STORM)
  • Apache SPARK Streaming et Structured Streaming
  • Articulation KAFKA et SPARK
  • Comparatif STORM / SPARK
  • Deux cas concrets
En présentielEn Présentiel

Déploiement d’un projet Big Data

  • Qu’est ce que le Cloud Computing
  • Cinq caractéristiques essentielles
  • Trois modèles de services
  • Services Cloud et utilisateurs
  • Mode SaaS
  • Mode PaaS
  • Mode IaaS
  • Modèles de déploiement
  • Tendances déploiement
  • Cloud Privé Virtuel (VPC)
  • Focus offre de Cloud Public
  • Caractéristiques communes des différents offres de Cloud Public
  • Focus Amazon AWS
  • Focus Google Cloud Platform
  • Focus Microsoft Azure
  • Classement indicatif des acteurs
  • Points de vigilance
En présentielEn Présentiel

Hadoop écosystème et distributions

  • L'exemple Yahoo
  • Exemples d'usages types
  • L'écosystème Hadoop
  • Apache Hadoop - Fonctions coeurs
  • Le système de stockage HDFS
  • Map Reduce : vue "technique"
  • Détail d'une MapTask
  • L'infrastructure YARN
  • YARN - Gestion d'une application
  • YARN – Détail d'un job MapReduce
  • Les projets Apache principaux associés
  • Les architectures types Hadoop
  • Les distributions Hadoop
  • Top 6 des vendeurs de distribution Hadoop
  • Détails des offres
  • Focus sur la distribution Hortonworks
En présentielEn Présentiel

Architectures de traitement Big Data

  • A - Traitement de données par lots (BATCH) : - le batch en Big Data - schéma de fonctionnement - usages types du batch processing - l’orchestrateur Apache OOZIE - les workflows OOZIE - les coordinateurs OOZIE (Coordinators) - limitations de OOZIE => FALCON - points de vigilance
  • B - Traitement de données en flux (Streaming) : - principes - fonctionnement - rappel : modèles types de traitement de Flux Big Data - points de vigilance
  • C - Modèles d’architecture de traitements de données Big Data : - objectifs - les composantes d’une architecture Big Data - deux modèles génériques : λ et Κ - architecture Lambda - les 3 couches de l’architecture Lambda - architecture Lambda : schéma de fonctionnement - solutions logicielles Lambda - exemple d’architecture logicielle Lambda - architecture Lambda : les + et les - - architecture Kappa - architecture Kappa : schéma de fonctionnement - solutions logicielles Kappa - architecture Kappa : les + et les -
  • L’heure du choix
En présentielEn Présentiel

La gouvernance des données Big Data

  • Big Data challenges pour la gouvernance des données
  • L'écosystème des outils de gouvernance Big Data
  • Les 3 piliers de la gouvernance Big Data
  • Mise en perspective dans une architecture Big Data
  • Management de la qualité des données
  • Tests de validation de données dans Hadoop
  • Management des métadonnées Big Data
  • Focus sur le système Apache HCatalog
  • Focus sur le framework Apache ATLAS
  • Management de la sécurité, de la conformité et la confidentialité
  • Focus Apache RANGER
  • Formulaire Ranger pour l'ajout de règles de sécurité pour HIVE
  • Apache Ranger Audit GUI
Après le présentielAprès le Présentiel
Retrouvez sur le Learning Hub ib :
  • un vidéocast "L'écosystème Hadoop"
  • deux vidéos-tutos "Installation d'un environnement Hadoop de base" et "Développement d'un premier MapReduce"
Les plus de cette formation Big Data - Les fondamentaux de l'analyse de données
  • Un tour d’horizon complet du Big Data.
  • Une description des principes et écosystèmes associés des système distribués.
  • Une formation très opérationnelle durant laquelle s'alternent les phases d'apports théoriques, d'échanges, de partage d'expériences.
  • Illustration par des démonstrations des différents logiciels clés sur des cas concrets.
  • Les retours d'expérience et conseils de consultants experts.

Informations

Dimension Digitale

  • Durée : 3 Jours (21h)
  • Réf. : BD540


Bon à savoir...

= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.