Fantom Tag

Formation - Big Data - Mise en oeuvre de traitements avec Spark

Mettre en oeuvre Spark pour optimiser des calculs

  • Présentiel ou classe à distance
  • Fondamental
PRESENTIEL OU CLASSE A DISTANCE
Durée
3 jours (21 heures)

Prix
2 420,00 €  HT

Référence
BD515
Dans vos locaux ou à distance
Référence
BD515

Durée
3 jours (21 heures)

Forfait intra - En savoir plus
8 420,00€ HT
(Prix pour un groupe de 12 personnes max)
Formation à la demande
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !
L'essor du Big Data a considérablement fait évoluer l'écosystème Hadoop, à l'origine principalement constitué de HDFS et MapReduce. Parmi les nouveaux outils qui gravitent autour d'Hadoop, Apache Spark, framework dédié au traitement et à l'analyse de données massives, a particulièrement attiré l'attention à tel point que quelques mois après sa mise à disposition sur le marché, les fournisseurs de solutions Hadoop l'ont intégré à leurs distributions. S'il rencontre un franc succès, c'est bien que Spark se pose en alternative crédible à MapReduce dont la mise en oeuvre est parfois lourde. En effet, contrairement à MapReduce, Spark propose un framework complet et unifié pour répondre aux besoins de traitements de données hétérogènes tout en permettant aux applications Hadoop d'être exécutées beaucoup plus rapidement.
Lire la suite
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Chefs de projet
  • Data Scientists
  • Développeurs

Prérequis

Programme

Le programme

1 - Introduction

  • Présentation de Spark
  • Origine du projet
  • Apports et principes de fonctionnement
  • Langages supportés
  • Mise en oeuvre sur une architecture distribuée
  • Architecture : clusterManager, driver, worker, ...

2 - Premiers pas

  • Utilisation du Shell Spark avec Scala ou Python
  • Modes de fonctionnement
  • Interprété, compilé
  • Utilisation des outils de construction
  • Gestion des versions de bibliothèques
  • Mise en pratique en Java, Scala et Python
  • Notion de contexte Spark
  • Extension aux sessions Spark

3 - Règles de développement

  • Mise en pratique en Java, Scala et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistance

4 - Cluster

  • Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l'interface web

5 - Traitements

  • Lecture/écriture de données : texte, JSon, Parquet, HDFS, fichiers séquentiels
  • Jointures
  • Filtrage de données, enrichissement
  • Calculs distribués de base
  • Introduction aux traitements de données avec map/reduce

6 - Support Cassandra

  • Description rapide de l'architecture Cassandra
  • Mise en oeuvre depuis Spark
  • Exécution de travaux Spark s'appuyant sur une grappe Cassandra

7 - DataFrames

  • Spark et SQL
  • Objectifs : traitement de données structurées
  • L'API Dataset et DataFrames
  • Optimisation des requêtes
  • Mise en oeuvre des Dataframes et DataSet
  • Comptabilité Hive
  • Travaux pratiques : extraction, modification de données dans une base distribuée
  • Collections de données distribuées
  • Exemples

8 - Streaming

  • Objectifs , principe de fonctionnement : stream processing
  • Source de données : HDFS, Flume, Kafka, ...
  • Notion de Streaming
  • Contexte, DStreams, démonstrations
  • Travaux pratiques : traitement de flux DStreams en Scala
  • Watermarking
  • Gestion des micro-batches
  • Travaux pratiques : mise en oeuvre d'une chaîne de gestion de données en flux tendu (IoT, Kafka, SparkStreaming, Spark)
  • Analyse des données au fil de l'eau

9 - Intégration Hadoop

  • Rappels sur l'écosystème Hadoop de base : HDFS/Yarn
  • Création et exploitation d'un cluster Spark/YARN
  • Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
  • Intégration de données AWS S3

10 - Machine Learning

  • Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
  • Mise en oeuvre avec les DataFrames

11 - Spark GraphX

  • Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
  • Travaux pratiques : exemples d'opérations sur les graphes
Objectifs

Les objectifs de la formation

  • Pouvoir comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop
  • Savoir intégrer Spark dans un environnement Hadoop
  • Comprendre comment traiter des données Cassandra, HBase, Kafka, Flume, Sqoop et S3
Evaluation

Evaluation

  • Cette formation fait l'objet d'une évaluation formative.
Points forts

Les points forts de la formation

  • Une formation qui accorde une large place à la pratique : de nombreux exercices seront réalisés tout au long de la formation.
  • Les retours d'expérience et conseils de consultants experts du domaine.

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

Dates et villes

Mise à jour le 02/03/2024
  • 2 420,00 € HT
    Places disponibles
    S'inscrire
  • 2 420,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
  • 2 420,00 € HT
    Places disponibles
    S'inscrire
  • 2 420,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
  • 2 420,00 € HT
    Places disponibles
    S'inscrire
  • 2 420,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
Formation - Big Data - Mise en oeuvre de traitements avec Spark