Fantom Tag

Formation - Big Data - Le SQL distribué

Requêter des données stockées dans des bases de données NoSQL

  • Présentiel ou classe à distance
  • Fondamental
PRESENTIEL OU CLASSE A DISTANCE
Durée
2 jours (14 heures)

Prix
1 510,00 €  HT

Référence
BD552
Formation à la demande
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !
Langage historique né avec les systèmes de gestion de bases de données relationnelles au début des années 2000, le SQL a été tellement utilisé par les développeurs et autres utilisateurs de solutions de Business Intelligence qu'il fait aujourd'hui figure de standard. Mais l'émergence des bases de données distribuées qui reposent sur des architectures machines en cluster vient changer la donne en rendant l'utilisation traditionnelle du SQL inopérante. C'est pourquoi la communauté Open Source a créé différents outils capables d'exécuter des requêtes SQL sur ces nouveaux systèmes distribués (également appelés bases NoSQL). Les participants à cette formation de 2 jours découvriront les principales solutions aujourd'hui disponibles et seront à même de choisir la plus adaptée à leur problématique spécifique.
Lire la suite
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Experts en bases de données relationnelles, chefs de projet

Prérequis

  • Connaissance générale des systèmes d'informations et des bases de données
Programme

Le programme

1 - Présentation

  • Besoin
  • Adéquation entre les objectifs et les outils
  • Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs
  • Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données (parquet, orc, raw, clés/valeurs)
  • Les outils : Hive, Impala, Tez, Presto, Drill, Pig, Spark/QL

2 - Hive et Pig

  • Présentation
  • Mode de fonctionnement
  • Rappel sur map/reduce
  • Hive : le langage HiveQL - Exemples
  • Pig : le langage pig/latin - Exemples

3 - Impala

  • Présentation
  • Cadre d'utilisation
  • Contraintes
  • Liaison avec le métastore Hive
  • Travaux pratiques : mise en évidence des performances

4 - Presto

  • Cadre d'utilisation
  • Sources de données utilisables
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur Cassandra et PostgreSQL

5 - Spark DataFrame

  • Les différentes approches
  • Syntaxe Spark/SQl
  • APIs QL
  • Compilation catalyst
  • Syntaxe, opérateurs
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur HBase et HDFS

6 - Drill

  • Utilisation d'APIs JDBC, ODBC
  • Indépendance Hadoop
  • Contraintes d'utilisation
  • Performances

7 - Comparatifs

  • Compatibilité ANSI/SQL
  • Approches des différents produits
  • Critères de choix
Objectifs

Les objectifs de la formation

  • Comprendre les connexions existantes entre les mondes relationnels et NoSQL en environnement Big Data
  • Savoir mettre en oeuvre Hive et Pig, Impala, les Spark Dataframes
Evaluation

Evaluation

  • Cette formation fait l'objet d'une évaluation formative.
Points forts

Les points forts de la formation

  • Le passage en revue des principales solutions disponibles pour interroger des bases de données HDFS.
  • Des travaux pratiques sur différents environnements permettent aux participants d'évaluer concrètement les outils du marché.
  • Les retours d'expérience et conseils de consultants experts.

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

Dates et villes

Mise à jour le 23/04/2024
  • 1 510,00 € HT
    Places disponibles
    S'inscrire
  • 1 510,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
  • 1 510,00 € HT
    Places disponibles
    S'inscrire
  • 1 510,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
  • 1 510,00 € HT
    Places disponibles
    S'inscrire
  • 1 510,00 € HT
    Places disponibles
    S'inscrire
    Paris
    Tour Atlantique / 1 place de la Pyramide La Défense 9
    92800 Puteaux
Formation - Big Data - Le SQL distribué