Dispositif intégré à la suite Hadoop, Pig offre la possibilité de produire des scripts de traitement de données s'exécutant particulièrement rapidement. Cet outil est généralement utilisé pour gérer les échanges de données entre applications tierces, pour charger des données vers des fichiers HDFS et pour transformer des fichiers afin de faciliter leur analyse. Pour découvrir les possibilités et atouts de Pig, il convient de s'approprier son langage et ses méthodes d'accès et de transformation de données. En suivant cette formation de 2 jours, les participants pourront disposer des compétences nécessaires à l'utilisation de cet outil pour préparer l'intégration et le traitement de données de différents formats et sources.
Objectifs de cette formation
Big Data - Développement de scripts avec Pig - Comprendre le fonctionnement de Pig
- Savoir développer des requêtes en latin pour effectuer des transformations sur des données
- Disposer des compétences nécessaires à la réalisation d'analyses de données
- Savoir intégrer des données de différents formats
- Chefs de projet, data scientists et développeurs souhaitant utiliser pig pour l'analyse de données
Introduction
- Le projet Apache Pig, fonctionnalités, versions
- Présentation de Pig dans l'écosystème Hadoop
- Chaîne de fonctionnement
- Comparatif avec l'approche Hive ou Spark
Mise en oeuvre
- Rappels sur les commandes HDFS
- Pré-requis techniques, configuration de Pig
- Travaux pratiques : Exécution : les différents modes (interactif ou batch)
- Principe de l'exécution de scripts Pig Latin avec Grunt
Base latin
- Modèles de données avec Pig
- Intégration Pig avec MapReduce
- Les requêtes Latin : chargement de données, instructions
- Ordres de base : LOAD, FOREACH, FILTER, STORE
- Travaux pratiques : création d'un ETL de base
- Contrôle d'exécution
Transformations
- Groupements, jointures, tris, produits cartésiens
- Transformation de base de la donnée
- Découpages
- Découpages sur filtres
Analyse de la donnée
- Échantillonnages
- Filtres
- Rangements avec rank et dense
- Calculs : min/max, sommes, moyennes, ...
- Travaux pratiques : traitements de chaînes de caractères et traitement de dates
Intégration
- Formats d'entrées/sorties
- Interfaçage avro, json
- Travaux pratiques : chargement de données depuis HDFS vers HBase, analyse de données Pig/HBase et restitution Json
Extensions
- Extension du Pig Latin
- Création de fonctions UDF en Java
- Intégration dans les scripts Pig
- Travaux pratiques : utilisation de Pig Latin depuis des programmes Python
- Travaux pratiques : exécution de programmes externes, streaming
Les plus de cette formation
Big Data - Développement de scripts avec Pig - Une formation rythmée par des ateliers encadrés par un formateur expert.
- Les nombreux retours d'expériences de consultants expérimentés permettent d'illustrer les concepts et d'accroître la pertinence des réponses fournies.