Formation - Big Data - Le SQL distribué

Requêter des données stockées dans des bases de données NoSQL

  • Présentiel ou classe à distance
  • Fondamental
Télécharger le PDF
PRESENTIEL OU CLASSE A DISTANCE
Référence
BD552

Durée
2 jours (14 heures)

Prix
1 395,00 €  HT

Formation à la demande
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !

Partager cette formation

Langage historique né avec les systèmes de gestion de bases de données relationnelles au début des années 2000, le SQL a été tellement utilisé par les développeurs et autres utilisateurs de solutions de Business Intelligence qu'il fait aujourd'hui figure de standard. Mais l'émergence des bases de données distribuées qui reposent sur des architectures machines en cluster vient changer la donne en rendant l'utilisation traditionnelle du SQL inopérante. C'est pourquoi la communauté Open Source a créé différents outils capables d'exécuter des requêtes SQL sur ces nouveaux systèmes distribués (également appelés bases NoSQL). Les participants à cette formation de 2 jours découvriront les principales solutions aujourd'hui disponibles et seront à même de choisir la plus adaptée à leur problématique spécifique.
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Experts en bases de données relationnelles, chefs de projet

Prérequis

  • Connaissance générale des systèmes d'informations et des bases de données
Programme

Le programme

1 - Présentation

  • Besoin
  • Adéquation entre les objectifs et les outils
  • Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs
  • Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données (parquet, orc, raw, clés/valeurs)
  • Les outils : Hive, Impala, Tez, Presto, Drill, Pig, Spark/QL

2 - Hive et Pig

  • Présentation
  • Mode de fonctionnement
  • Rappel sur map/reduce
  • Hive : le langage HiveQL - Exemples
  • Pig : le langage pig/latin - Exemples

3 - Impala

  • Présentation
  • Cadre d'utilisation
  • Contraintes
  • Liaison avec le métastore Hive
  • Travaux pratiques : mise en évidence des performances

4 - Presto

  • Cadre d'utilisation
  • Sources de données utilisables
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL

5 - Spark DataFrame

  • Les différentes approches
  • Syntaxe Spark/SQl
  • APIs QL
  • Compilation catalyst
  • Syntaxe, opérateurs
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur HBase et HDFS

6 - Drill

  • Utilisation d'APIs JDBC, ODBC
  • Indépendance Hadoop
  • Contraintes d'utilisation
  • Performances

7 - Comparatifs

  • Compatibilité ANSI/SQL
  • Approches des différents produits
  • Critères de choix
Objectifs

Les objectifs de la formation

  • Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data
  • Savoir mettre en oeuvre Hive et Pig, Impala, les Spark Dataframes
Points forts

Les points forts de la formation

  • Le passage en revue des principales solutions disponibles pour interroger des bases de données HDFS.
  • Des travaux pratiques sur différents environnements permettent aux participants d'évaluer concrètement les outils du marché.
  • Les retours d'expérience et conseils de consultants experts.

Qualité des formations

ib - groupe Cegos est certifié Iso 9001 et Qualiopi.

Dates et villes

Mise à jour le 03/10/2022

Trier par:

  • 1 395,00 € HT
    Places disponibles
    S'inscrire
    Le lieu de formation sera indiqué environ 3 semaines avant le début de la formation
  • 1 395,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
  • 1 395,00 € HT
    Places disponibles
    S'inscrire
    Le lieu de formation sera indiqué environ 3 semaines avant le début de la formation
  • 1 395,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
Formation - Big Data - Le SQL distribué