Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Formation Big Data - Développement de scripts avec Pig
Technique

Formation Big Data - Développement de scripts avec Pig

Traiter et gérer des données de formats et sources multiples

Dispositif intégré à la suite Hadoop, Pig offre la possibilité de produire des scripts de traitement de données s’exécutant particulièrement rapidement. Cet outil est généralement utilisé pour gérer les échanges de données entre applications tierces, pour charger des données vers des fichiers HDFS et pour transformer des fichiers afin de faciliter leur analyse. Pour découvrir les possibilités et atouts de Pig, il convient de s’approprier son langage et ses méthodes d’accès et de transformation de données. En suivant cette formation de 2 jours, les participants pourront disposer des compétences nécessaires à l’utilisation de cet outil pour préparer l’intégration et le traitement de données de différents formats et sources.

Objectifs de cette formation

Big Data - Développement de scripts avec Pig
  • Comprendre le fonctionnement de Pig
  • Savoir développer des requêtes en latin pour effectuer des transformations sur des données
  • Disposer des compétences nécessaires à la réalisation d’analyses de données
  • Savoir intégrer des données de différents formats

Public

  • Chefs de projet, data scientists et développeurs souhaitant utiliser pig pour l'analyse de données

Pré-requis

Programme détaillé

Introduction

  • Le projet Apache Pig, fonctionnalités, versions
  • Présentation de Pig dans l'écosystème Hadoop
  • Chaîne de fonctionnement
  • Comparatif avec l'approche Hive ou Spark

Mise en oeuvre

  • Rappels sur les commandes HDFS
  • Pré-requis techniques, configuration de Pig
  • Travaux pratiques : Exécution : les différents modes (interactif ou batch)
  • Principe de l'exécution de scripts Pig Latin avec Grunt

Base latin

  • Modèles de données avec Pig
  • Intégration Pig avec MapReduce
  • Les requêtes Latin : chargement de données, instructions
  • Ordres de base : LOAD, FOREACH, FILTER, STORE
  • Travaux pratiques : création d'un ETL de base
  • Contrôle d'exécution

Transformations

  • Groupements, jointures, tris, produits cartésiens
  • Transformation de base de la donnée
  • Découpages
  • Découpages sur filtres

Analyse de la donnée

  • Échantillonnages
  • Filtres
  • Rangements avec rank et dense
  • Calculs : min/max, sommes, moyennes, ...
  • Travaux pratiques : traitements de chaînes de caractères et traitement de dates

Intégration

  • Formats d'entrées/sorties
  • Interfaçage avro, json
  • Travaux pratiques : chargement de données depuis HDFS vers HBase, analyse de données Pig/HBase et restitution Json

Extensions

  • Extension du Pig Latin
  • Création de fonctions UDF en Java
  • Intégration dans les scripts Pig
  • Travaux pratiques : utilisation de Pig Latin depuis des programmes Python
  • Travaux pratiques : exécution de programmes externes, streaming

Les plus de cette formation

Big Data - Développement de scripts avec Pig
  • Une formation rythmée par des ateliers encadrés par un formateur expert.
  • Les nombreux retours d'expériences de consultants expérimentés permettent d'illustrer les concepts et d'accroître la pertinence des réponses fournies.
Modalités
Cette formation proposée en interentreprises est également accessible à distance.
Si aucune date à distance n'est signalée par le pictogramme formation accessible à distance, contactez notre Service Conseil Clients au 0 825 07 6000.

Informations

Dimension Digitale

  • Durée : 2 Jours (14h)
  • Tarif : 1 395 € HT
  • Réf. : BD517


Dates des sessions

Bon à savoir...

= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.