PRESENTIEL OU CLASSE A DISTANCE

Durée

3 jours (21 heures)

Prix

2 550,00 € HT

Référence

BD515

Consulter les dates et villes

Choisir une session

Formation dans votre entreprise

Durée

3 jours (21 heures)

Référence

BD515

Demander un devis

Formation à la demande

Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !

Nous contacter

Télécharger le PDF

Ajouter à ma sélection

Nous contacter

L'essor du Big Data a considérablement fait évoluer l'écosystème Hadoop, à l'origine principalement constitué de HDFS et MapReduce. Parmi les nouveaux outils qui gravitent autour d'Hadoop, Apache Spark, framework dédié au traitement et à l'analyse de données massives, a particulièrement attiré l'attention à tel point que quelques mois après sa mise à disposition sur le marché, les fournisseurs de solutions Hadoop l'ont intégré à leurs distributions. S'il rencontre un franc succès, c'est bien que Spark se pose en alternative crédible à MapReduce dont la mise en oeuvre est parfois lourde. En effet, contrairement à MapReduce, Spark propose un framework complet et unifié pour répondre aux besoins de traitements de données hétérogènes tout en permettant aux applications Hadoop d'être exécutées beaucoup plus rapidement.

Pour qui ?

A qui s'adresse cette formation ?

Pour qui

Chefs de projet
Data Scientists
Développeurs

Prérequis

Connaissance de Java ou Python
Avoir suivi le séminaire "Hadoop - Présentation de l'écosystème" (SEM35) ou avoir des bases Hadoop
Notions de calculs statistiques

Programme

Le programme

1 - Introduction

Présentation de Spark
Origine du projet
Apports et principes de fonctionnement
Langages supportés
Mise en oeuvre sur une architecture distribuée
Architecture : clusterManager, driver, worker, ...

2 - Premiers pas

Utilisation du Shell Spark avec Scala ou Python
Modes de fonctionnement
Interprété, compilé
Utilisation des outils de construction
Gestion des versions de bibliothèques
Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Extension aux sessions Spark

3 - Règles de développement

Mise en pratique en Java, Scala et Python
Notion de contexte Spark
Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
Fonctions, gestion de la persistance

4 - Cluster

Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs, supervision depuis l'interface web

5 - Traitements

Lecture/écriture de données : texte, JSon, Parquet, HDFS, fichiers séquentiels
Jointures
Filtrage de données, enrichissement
Calculs distribués de base
Introduction aux traitements de données avec map/reduce

6 - Support Cassandra

Description rapide de l'architecture Cassandra
Mise en oeuvre depuis Spark
Exécution de travaux Spark s'appuyant sur une grappe Cassandra

7 - DataFrames

Spark et SQL
Objectifs : traitement de données structurées
L'API Dataset et DataFrames
Optimisation des requêtes
Mise en oeuvre des Dataframes et DataSet
Comptabilité Hive
Travaux pratiques : extraction, modification de données dans une base distribuée
Collections de données distribuées
Exemples

8 - Streaming

Objectifs , principe de fonctionnement : stream processing
Source de données : HDFS, Flume, Kafka, ...
Notion de Streaming
Contexte, DStreams, démonstrations
Travaux pratiques : traitement de flux DStreams en Scala
Watermarking
Gestion des micro-batches
Travaux pratiques : mise en oeuvre d'une chaîne de gestion de données en flux tendu (IoT, Kafka, SparkStreaming, Spark)
Analyse des données au fil de l'eau

9 - Intégration Hadoop

Rappels sur l'écosystème Hadoop de base : HDFS/Yarn
Création et exploitation d'un cluster Spark/YARN
Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
Intégration de données AWS S3

10 - Machine Learning

Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
Mise en oeuvre avec les DataFrames

11 - Spark GraphX

Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
Travaux pratiques : exemples d'opérations sur les graphes

Evaluation

Cette formation fait l'objet d'une évaluation formative.

Objectifs

Les objectifs de la formation

Pouvoir comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop
Savoir intégrer Spark dans un environnement Hadoop
Comprendre comment traiter des données Cassandra, HBase, Kafka, Flume, Sqoop et S3

Evaluation

Cette formation fait l'objet d'une évaluation formative.

Points forts

Les points forts de la formation

Une formation qui accorde une large place à la pratique : de nombreux exercices seront réalisés tout au long de la formation.
Les retours d'expérience et conseils de consultants experts du domaine.

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Sessions

Mise à jour le 02/07/2025

2 550,00 € HT
Places disponibles
S'inscrire
2 550,00 € HT
Places disponibles
S'inscrire
Paris
Tour Atlantique / 1 place de la Pyramide La Defense 9
92800 Puteaux
2 550,00 € HT
Places disponibles
S'inscrire
2 550,00 € HT
Places disponibles
S'inscrire
Paris
Tour Atlantique / 1 place de la Pyramide La Defense 9
92800 Puteaux

Formation - Big Data - Mise en oeuvre de traitements avec Spark

Forfait Intra

Le forfait Intra comprend :

La formation dans vos locaux pour un groupe de 12 personnes maximum
L'ensemble des activités pédagogiques prévues dans la fiche de présentation de la formation
La documentation au format numérique
L'évaluation et l'émargement dématérialisés

Formation - Big Data - Mise en oeuvre de traitements avec Spark

Mettre en oeuvre Spark pour optimiser des calculs

A qui s'adresse cette formation ?

Pour qui

Prérequis

Le programme

1 - Introduction

2 - Premiers pas

3 - Règles de développement

4 - Cluster

5 - Traitements

6 - Support Cassandra

7 - DataFrames

8 - Streaming

9 - Intégration Hadoop

10 - Machine Learning

11 - Spark GraphX

Evaluation

Les objectifs de la formation

Evaluation

Les points forts de la formation

Qualité des formations

Sessions

Forfait Intra

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis