Menu Recherche Panier
(...)
Vous êtes ici : Accueil > Catalogue des formations > Formation Data Engineering on Google Cloud Platform
TechniqueNouveauté

Formation Data Engineering on Google Cloud Platform

Concevoir et développer des systèmes de traitement de données

Si les bénéfices liés à l’adoption du cloud sont aujourd’hui nombreux (disponibilité, agilité, adaptabilité, gains financiers,...), l’une des principales vertus de cette révolution est de pouvoir accéder à des outils et à des puissances de traitement qu’il serait bien souvent difficile de s’offrir (et de rentabiliser) dans un modèle traditionnel. C’est notamment dans le cadre du traitement et de l’analyse de très importants volumes de données (Big Data) que se mesure sans doute le mieux cet avantage. Comme tous les grands acteurs du cloud, Google propose ainsi de nombreux services dédiés au traitement et à l’analyse dite de type Big Data ainsi que des solutions permettant de tirer par exemple parti du Machine Learning.Les participants à cette formation apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données, à réaliser des traitements sur des données structurées et non structurées et enfin à exploiter ces données grâce à de puissant outils d’analyse.
Objectifs de cette formation Data Engineering on Google Cloud Platform
  • Apprendre à concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
  • Savoir traiter des données par lot ou par flux en implémentant des pipelines de données scalables automatiquement sur Cloud Dataflow
  • Comprendre comment obtenir des informations métier à partir de très grands ensembles de données en utilisant Google BigQuery
  • Pouvoir « entraîner », évaluer et faire des prédictions avec des modèles de Machine Learning en utilisant Tensorflow et Cloud ML
  • Savoir tirer parti des données non structurées à l'aide de Spark et des API de Machine Learning sur Cloud Dataproc
  • Comprendre comment activer Instant Insights à partir des données par flux
Public
  • Développeurs expérimentés en charge des transformations du Big Data
Pré-requis
  • Avoir suivi la formation "Google Cloud Fundamentals : Big Data et Machine Learning" ou bénéficier d'une expérience équivalente
  • Maîtriser les principes de base des langages de requête courants tels que SQL
  • Avoir de l'expérience en modélisation, extraction, transformation et chargement des données
  • Savoir développer des applications à l'aide d'un langage de programmation courant tel que Python
  • Savoir utiliser le machine learning et/ou les statistiques
  • Disposez-vous des compétences nécessaires pour suivre cette formation ? Testez-vous !
Programme détaillé

Présentation de Google Cloud Dataproc

  • Création et gestion des clusters
  • Exploitation des types de machines personnalisés et des noeuds de calcul préemptifs
  • Évolutivité et suppression des clusters

Exécution de tâches sur Dataproc

  • Exécution de tâches Pig et Hive
  • Séparation du stockage et du calcul

Intégrer Dataproc à Google Cloud Platform

  • Personnalisation d'un cluster à l'aide d'actions d'initialisation
  • Assistance BigQuery

Comprendre les données non-structurées avec les API Machine Learning de Google

  • Les API Machine Learning de Google
  • Cas d'utilisation courants du Machine Learning
  • Appeler des API de Machine Learning

Analyse de données en mode serverless avec BigQuery

  • Qu'est-ce que BigQuery ?
  • Requêtes et fonctions
  • Charger des données dans BigQuery
  • Exporter des données à partir de BigQuery
  • Champs imbriqués et répétés
  • Interroger plusieurs tables
  • Performances et tarification

Pipelines de données d'autoscaling serverless avec Dataflow

  • Le modèle de programmation Beam
  • Pipelines de données dans Beam Python
  • Pipelines de données dans Beam Java
  • Traitement évolutif du big data avec Beam
  • Intégrer des données supplémentaires
  • Gestion des données par flux
  • Architecture de référence GCP

Bien démarrer avec le Machine Learning

  • Qu'est-ce que le Machine Learning (ML) ?
  • ML efficace : concepts et types
  • Ensembles de données de ML : généralisation

Construction de modèles Machine Learning avec Tensorflow

  • Premiers pas avec TensorFlow
  • Graphiques et boucles TensorFlow + atelier
  • Surveiller l'entraînement ML

Mise à l’échelle de modèles Machine Learning avec Cloud ML

  • Pourquoi utiliser Cloud ML ?
  • Créer le package d'un modèle TensorFlow
  • Entraînement de bout en bout

Extraction de caractéristiques

  • Créer des fonctionnalités pertinentes
  • Transformer les entrées
  • Fonctionnalités synthétiques
  • Pré-traitement avec Cloud ML

Architecture des pipelines d’analyse par flux

  • Défis du traitement des données par flux
  • Gestion de volumes de données variables
  • Gestion des données non triées/en retard

Ingérer de volumes de variables

  • Qu'est-ce que Cloud Pub/Sub ?
  • Fonctionnement : Thèmes et abonnements

Mettre en place des pipelines par flux

  • Défis du traitement par flux
  • Gestion des données en retard : filigranes, déclenchements et accumulation

Analyse de flux de données et tableaux de bords

  • Analyses de flux de données : prendre des décisions à partir des données
  • Interroger les données par flux avec BigQuery
  • Qu'est-ce que Google Data Studio ?

Haut débit et faible latence avec Bigtable

  • Qu'est-ce que Cloud Spanner ?
  • Concevoir un schéma Bigtable
  • Ingestion dans Bigtable
Les plus de cette formation Data Engineering on Google Cloud Platform
  • Une introduction pratique et complète à la conception et au développement de systèmes de traitement de données sur Google Cloud Platform.
  • Une formation animée par un formateur certifié Google Cloud Platform
  • Grâce à une alternance de présentations, de démonstrations et d’exercices pratiques, les participants apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données de bout en bout, à analyser des données et à utiliser le potentiel du Machine Learning.
Certification

Cette formation prépare au test suivant :

  • Professional Data Engineer
et entre en jeu dans le cursus de certification :

Informations

  • Durée : 4 Jours (28h)
  • Tarif : 3 090 € HT
  • Réf. : CC401


Dates des sessions
Session garantie Formation à distance Session accessible à distance Visio
Bon à savoir...




= une réponse possible
= plusieurs réponses possibles

Vous n'avez pas répondu à toutes les questions !
Vous avez % de bonnes réponses, vous pouvez donc suivre cette formation.
Vous avez % de bonnes réponses.
Nous vous invitons à contacter nos Conseillers Formation au 0825 07 6000 afin qu'ils vous orientent vers une formation plus adaptée à vos connaissances.