Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Formation Big Data - Le SQL distribué
TechniqueNouveauté

Formation Big Data - Le SQL distribué

Requêter des données stockées dans des bases de données NoSQL

Langage historique né avec les systèmes de gestion de bases de données relationnelles au début des années 2000, le SQL a été tellement utilisé par les développeurs et autres utilisateurs de solutions de Business Intelligence qu’il fait aujourd’hui figure de standard. Mais l’émergence des bases de données distribuées qui reposent sur des architectures machines en cluster vient changer la donne en rendant l’utilisation traditionnelle du SQL inopérante. C’est pourquoi la communauté Open Source a créé différents outils capables d’exécuter des requêtes SQL sur ces nouveaux systèmes distribués (également appelés bases NoSQL). Les participants à cette formation de 2 jours découvriront les principales solutions aujourd’hui disponibles et seront à même de choisir la plus adaptée à leur problématique spécifique.

Objectifs de cette formation

Big Data - Le SQL distribué
  • Comprendre les caractéristiques techniques des bases de données NoSQL
  • Connaître les différentes solutions disponibles pour réaliser des requêtes sur des bases de données distribuées (HDFS)
  • Être en mesure de choisir la solution la plus adaptée à son contexte

Public

  • Experts en bases de données, chefs de projets
  • Toute personne souhaitant comprendre le fonctionnement et les apports des bases NoSQL

Pré-requis

Programme détaillé

Présentation

  • Besoin
  • Comment concilier le quoi et le comment ?
  • Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs
  • Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données (parquet, orc, raw, clés/valeurs)
  • Les outils : Hive, Impala, Tez, Presto, Drill, Pig, Spark/QL

Hive et Pig

  • Présentation
  • Mode de fonctionnement
  • Rappel sur map/reduce
  • Hive : le langage HiveQL - Exemples
  • Pig : le langage pig/latin - Exemples

Impala

  • Présentation
  • Cadre d'utilisation
  • Contraintes
  • Liaison avec le métastore Hive
  • Travaux pratiques : mise en évidence des performances

Presto

  • Cadre d'utilisation
  • Sources de données utilisables
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur Cassandra, HDFS et PostgreSQL

Spark DataFrame

  • Les différentes approches
  • Syntaxe Spark/SQl
  • APIs QL
  • Compilation catalyst
  • Syntaxe, opérateurs
  • Comparaison avec Presto
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur HBase et HDFS

Drill/sqoop

  • Utilisation d'APIs JDBC, ODBC
  • Indépendance Hadoop
  • Contraintes d'utilisation
  • Performances

Comparatifs

  • Compatibilité ANSI/SQL
  • Approches des différents produits
  • Critères de choix

Les plus de cette formation

Big Data - Le SQL distribué
  • Le passage en revue des principales solutions disponibles pour interroger des bases de données HDFS.
  • Des travaux pratiques sur différents environnements permettent aux participants d’évaluer concrètement les outils du marché.
  • Les retours d’expérience et conseils de consultants experts.
Modalités
Cette formation proposée en interentreprises est également accessible à distance.
Si aucune date à distance n'est signalée par le pictogramme formation accessible à distance, contactez notre Service Conseil Clients au 0 825 07 6000.

Informations

Dimension Digitale

  • Durée : 2 Jours (14h)
  • Tarif : 1 395 € HT
  • Réf. : BD552


Dates des sessions

Bon à savoir...

= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.