Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation Mise en oeuvre des traitements Big Data avec Spark
TechniqueNouveauté

Formation Mise en oeuvre des traitements Big Data avec Spark

Mettre en oeuvre Spark pour optimiser des calculs

L’essor du Big Data a considérablement fait évoluer l’écosystème Hadoop, à l’origine principalement constitué de HDFS et MapReduce.Parmi les nouveaux outils qui gravitent autour d’Hadoop, Apache Spark, framework dédié au traitement et à l’analyse de données massives, a particulièrement attiré l’attention à tel point que quelques mois après sa mise à disposition sur la marché, les fournisseurs de solutions Hadoop l’ont intégré à leurs distributions. S’il rencontre un franc succès, c’est bien que Spark se pose en alternative crédible à MapReduce dont la mise en oeuvre est parfois lourde. En effet, contrairement à MapReduce, Spark propose un framework complet et unifié pour répondre aux besoins de traitements de données hétérogènes tout en permettant aux applications Hadoop d’être exécutées beaucoup plus rapidement.
Objectifs de cette formation Mise en oeuvre des traitements Big Data avec Spark
  • Savoir mettre en oeuvre Spark pour optimiser des calculs
  • Apprendre à développer en Java et Python
  • Comprendre comment manipuler des données sur les RDD (Resilient Distributed Dataset)
  • Être en mesure de créer et exploiter un cluster Spark/YARN
Public
  • Chefs de projet
  • Data Scientists et Data Analysts
  • Développeurs
Pré-requis
Programme détaillé

Introduction

  • Présentation de Spark, origine du projet
  • Apports et principes de fonctionnement
  • Langages supportés

Premiers pas

  • Utilisation du shell Spark avec Scala ou Python
  • Gestion du cache

Règles de développement

  • Mise en pratique en Java et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistance

Streaming

  • Objectifs, principe de fonctionnement
  • Notion de StreamingContexte, DStreams, démonstrations

Cluster

  • Différents cluster managers : Spark en autonome, Mesos, Yarn, Amazon EC2
  • Architecture : SparkContext,Cluster Manager, Executor sur chaque noeud
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l'interface web

Intégration Hadoop

  • Travaux pratiques avec YARN
  • Création et exploitation d'un cluster Spark/YARN
Les plus de cette formation Mise en oeuvre des traitements Big Data avec Spark
  • Une formation qui accorde une large place à la pratique : de nombreux exercices seront réalisés tout au long de la formation.
  • Les retours d'expérience et conseils de consultants experts du domaine.

Informations

  • Durée : 3 jours (21h)
  • Tarif : 1 890 € HT
  • Réf. : BD515
  • Option(s)
    • Repas Paris : 69 € HT


Dates des sessions
Session garantie Formation à distance Session accessible à distance Visio
Bon à savoir...
Mise en oeuvre des traitements Big Data avec Spark

Introduction

Premiers pas

Règles de développement

Streaming

Cluster

Intégration Hadoop




= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.