Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation Big Data : mise en oeuvre d'une solution complète d'analyse des données
TechniqueNouveauté

Formation Big Data : mise en oeuvre d'une solution complète d'analyse des données

Architecture, collecte et analyse de données massives

Comprendre les besoins métier pour livrer aux décideurs des indicateurs fiables et pertinents, tel est le rôle attendu des spécialistes Big Data. Précisément conçu pour leur apprendre à mettre en oeuvre une solution de Big Data en environnement Hadoop, solution phare pour les traitements Big Data, ce programme reprend le cheminement logique d’un projet d’analyse de données. De leur collecte initiale à la mise en place d’une solution de stockage HDFS permettant d’organiser un très grand volume d’information, à la réalisation de programmes Pig et Hive qui, convertis en tâches MapReduce, permettent d’agréger et de filtrer les données pour finalement les analyser, tous les aspects seront abordés.
Objectifs de cette formation Big Data : mise en oeuvre d'une solution complète d'analyse des données
  • Disposer des compétences techniques nécessaires à la mise en oeuvre d’analyses Big Data
  • Comprendre le cadre juridique du stockage et de l'analyse de données
  • Savoir utiliser des outils de collecte opensource
  • Être en mesure de choisir la bonne solution de stockage de données au regard des spécificités d'un projet (OLAP, NoSQL, graph)
  • Explorer la boite à outils technologique que constitue Hadoop et son écosystème et savoir comment utiliser chaque brique (PIG, HIVE, MapR,...)
  • Apprendre à analyser les résultats et comprendre la signification des données extraites
Public
  • Chefs de projet
  • Data Scientists, Data Analysts
  • Développeurs
  • Analystes et statisticien
Pré-requis
Programme détaillé

Collecte de données

  • Où et comment collecter des données ?
  • Les sources de données, les API, les fournisseurs, les agrégateurs...
  • Les principaux outils de collecte et de traitement de l’information (ETL)
  • Prise en main de Talend ETL et de Talend Data Preparation (outils libres)
  • Les particularités de la collecte des données semi-structurées et non-structurées

Stocker les données

  • Les différentes formes de stockage des données : rappel de l’architecture relationnelle de stockage des données transactionnelles (SGBD/R) et multidimensionnelles (OLAP)
  • Prise en main d’une base de données OLAP
  • Les nouvelles formes de stockage des données - compréhension, positionnement et comparaison : Bases NoSQL, Hadoop, Spark, Bases de données graph...
  • Prise en main des bases de données graph (Neo4j)
  • Panorama des bases de données NoSQL
  • Particularités liées au stockage des données non-structurées
  • Comment transformer des données non structurées en données structuréesL’écosystème Hadoop
  • Présentation des principaux modules de la distribution Apache Hadoop
  • Présentation et comparaison des principales distributions commerciales (Cloudera, Hortonworks...)
  • L’infrastructure matérielle et logicielle nécessaire au fonctionnement de HadoopServeur local ou cloud
  • Installation d’une machine virtuelle et d’une distribution Hadoop
  • Les concepts de base de l’architecture Hadoop: Data Node, Name Node, Job Tracker, Task Tracker
  • Présentation de HDFS (Système de gestion des fichiers de Hadoop)
  • Prise en main et exercices pratiques dans HDFS
  • Présentation de MapReduce (Outil de traitement de Hadoop)
  • Les commandes exécutées au travers de PIG
  • Utilisation de HIVE pour transformer du SQL en MapReduce

Analyser les données

  • Requêter les données
  • Analyser et comprendre la signification des données extraites
  • Particularités liées à l’analyse des données non structurées
  • Analyse statistique : notions de base
  • Analyse prédictive : comment transformer des données du passé en prévisions pour le futur
  • Calculer des tendances
  • Développer des programmes simples d’automatisation des analyses (en Python)
  • Machine Learning : les bases de l’apprentissage machine
  • Deep Learning : notions de base de l’analyse future automatisée de données non structurées

Transformer les données en décisions

  • Comprendre les besoins et les attentes des utilisateurs business
  • Traduire les demandes des utilisateurs en requêtes
  • Évaluer et vérifier la qualité des données extraites en fonction des résultats obtenus
  • Définir un indice de confiance permettant d’échanger avec les utilisateurs business
Les plus de cette formation Big Data : mise en oeuvre d'une solution complète d'analyse des données
  • Une formation très opérationnelle durant laquelle s'alternent les phases d'apports théoriques, d'échanges, de partage d'expériences.
  • Une formation basée sur des données réelles, et un projet « fil rouge ». Les participants seront mis en condition, comme dans leur entreprise, et devront passer par chaque étape de l’analyse avant de finalement découvrir les résultats de leurs analyses.
  • Les ateliers s’appuieront sur des cas réels ; les participants extrairont, stockeront et analyseront des données réelles, en provenance de données ouvertes, et de données extraites des médias sociaux, pour réaliser leurs analyses dans un environnement le plus proche possible de la réalité.
  • Les retours d'expérience et conseils de consultants experts du domaine.

Informations

  • Durée : 4 jours (28h)
  • Tarif : 2 430 € HT
  • Réf. : BD550
  • Option(s)
    • Repas Paris : 92 € HT


Dates des sessions
Session garantie Formation à distance Session accessible à distance Visio
Bon à savoir...

= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.