Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation Pig - Développement de scripts
TechniqueNouveauté

Formation Pig - Développement de scripts

Traiter et gérer des données de formats et sources multiples

Dispositif intégré à la suite Hadoop, Pig offre la possibilité de produire des scripts de traitement de données s’exécutant particulièrement rapidement. Cet outil est généralement utilisé pour gérer les échanges de données entre applications tierces, pour charger des données vers des fichiers HDFS et pour transformer des fichiers afin de faciliter leur analyse. Pour découvrir les possibilités et atouts de Pig, il convient de s’approprier son langage et ses méthodes d’accès et de transformation de données. En suivant cette formation de 2 jours, les participants pourront disposer des compétences nécessaires à l’utilisation de cet outil pour préparer l’intégration et le traitement de données de différents formats et sources.
Objectifs de cette formation Pig - Développement de scripts
  • Comprendre le fonctionnement de Pig
  • Savoir développer des requêtes en latin pour effectuer des transformations sur des données
  • Disposer des compétences nécessaires à la réalisation d’analyses de données
  • Savoir intégrer des données de différents formats
Public
  • Chefs de projet, data scientists, développeurs souhaitant utiliser pig pour l'analyse de données
Pré-requis
Programme détaillé

Introduction

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l'écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l'approche Hive ou Spark

Mise en oeuvre

  • Rappels sur les commandes HDFS
  • prérequis techniques, configuration de Pig
  • Exécution : les différents modes : interactif ou batch
  • Principe de l'exécution de scripts Pig Latin avec Grunt

Base latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de bases : LOAD, FOREACH, FILTER, STORE
  • Création d'un ETL de base
  • Contrôle d'exécution

Transformations

  • Groupements, jointures, tris, produits cartésiens
  • Transformation de base de la donnée
  • Découpages
  • Découpages sur filtres

Analyse de la donnée

  • Échantillonnages
  • Filtres
  • Rangements avec rank et dense
  • Calculs : min/max, sommes, moyennes, ...
  • Traitements de chaînes de caractères
  • Traitement de dates

Intégration

  • Formats d'entrées/sorties
  • Interfaçage avro, json
  • Chargement de données depuis HDFS vers HBase, analyse de données Pig/HBase et restitution Json

Extensions

  • Extension du Pig Latin
  • Création de fonctions UDF en Java
  • Intégration dans les scripts Pig
  • Utilisation de Pig Latin depuis des programmes Python
  • Exécution de programmes externes, streaming
Les plus de cette formation Pig - Développement de scripts
  • Une formation rythmée par des ateliers encadrés par un formateur expert
  • Les nombreux retours d'expériences de consultants expérimentés permettent d'illustrer les concepts et d'accroître la pertinence des réponses fournies.

Informations

  • Durée : 2 Jours (14h)
  • Tarif : 1 375 € HT
  • Réf. : BD517
  • Option(s)
    • Repas Paris : 46 € HT


Dates des sessions
Session garantie Formation à distance Session accessible à distance Visio
Bon à savoir...

= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.