Formation - Big Data - Développement de scripts avec Pig

Traiter et gérer des données de formats et sources multiples

  • Présentiel ou classe à distance
  • Fondamental
Télécharger le PDF
Formation à la demande
Référence
BD517

Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !

Partager cette formation

Dispositif intégré à la suite Hadoop, Pig offre la possibilité de produire des scripts de traitement de données s'exécutant particulièrement rapidement. Cet outil est généralement utilisé pour gérer les échanges de données entre applications tierces, pour charger des données vers des fichiers HDFS et pour transformer des fichiers afin de faciliter leur analyse. Pour découvrir les possibilités et atouts de Pig, il convient de s'approprier son langage et ses méthodes d'accès et de transformation de données. En suivant cette formation de 2 jours, les participants pourront disposer des compétences nécessaires à l'utilisation de cet outil pour préparer l'intégration et le traitement de données de différents formats et sources.
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Chefs de projet, data scientists et développeurs souhaitant utiliser pig pour l'analyse de données

Prérequis

  • Connaissance de Java ou Python
  • Connaissances des bases Hadoop
  • Avoir des notions de calculs statistiques
Programme

Le programme

1 - Introduction

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l'écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l'approche Hive ou Spark

2 - Mise en oeuvre

  • Rappels sur les commandes HDFS
  • Pré-requis techniques, configuration de Pig
  • Travaux pratiques : Exécution : les différents modes (interactif ou batch)
  • Principe de l'exécution de scripts Pig Latin avec Grunt

3 - Base latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de base : LOAD, FOREACH, FILTER, STORE
  • Travaux pratiques : création d'un ETL de base
  • Contrôle d'exécution

4 - Transformations

  • Groupements, jointures, tris, produits cartésiens
  • Transformation de base de la donnée
  • Découpages
  • Découpages sur filtres

5 - Analyse de la donnée

  • Échantillonnages
  • Filtres
  • Rangements avec rank et dense
  • Calculs : min/max, sommes, moyennes, ...
  • Travaux pratiques : traitements de chaînes de caractères et traitement de dates

6 - Intégration

  • Formats d'entrées/sorties
  • Interfaçage avro, json
  • Travaux pratiques : chargement de données depuis HDFS vers HBase, analyse de données Pig/HBase et restitution Json

7 - Extensions

  • Extension du Pig Latin
  • Création de fonctions UDF en Java
  • Intégration dans les scripts Pig
  • Travaux pratiques : utilisation de Pig Latin depuis des programmes Python
  • Travaux pratiques : exécution de programmes externes, streaming
Objectifs

Les objectifs de la formation

  • Comprendre le fonctionnement de Pig
  • Savoir développer des requêtes en latin pour effectuer des transformations sur des données
  • Disposer des compétences nécessaires à la réalisation d'analyses de données
  • Savoir intégrer des données de différents formats
Points forts

Les points forts de la formation

  • Une formation rythmée par des ateliers encadrés par un formateur expert.
  • Les nombreux retours d'expériences de consultants expérimentés permettent d'illustrer les concepts et d'accroître la pertinence des réponses fournies.

Qualité des formations

ib - groupe Cegos est certifié Iso 9001 et Qualiopi.

Formation - Big Data - Développement de scripts avec Pig