Nouvelle formule
 
Fantom Tag

Formation - Google Cloud Platform - Ingénierie de données

Concevoir et développer des systèmes de traitement de données sur GCP

  • A distance
  • Fondamental
A distance
Durée
4 jours (28 heures)

Prix 2025
3 250,00 €  HT

Référence
CC401

Référence éditeur
GCP200-DE
Choisir une session
Formation dans votre entreprise
Durée
4 jours (28 heures)

Référence
CC401

Référence éditeur
GCP200-DE
Formation à la demande
Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !
Si les bénéfices liés à l'adoption du Cloud sont aujourd'hui nombreux (disponibilité, agilité, adaptabilité, gains financiers, ...), l'une des principales vertus de cette révolution est de pouvoir accéder à des outils et à des puissances de traitement qu'il serait bien souvent difficile de s'offrir (et de rentabiliser) dans un modèle traditionnel. C'est notamment dans le cadre du traitement et de l'analyse de très importants volumes de données (Big Data) que se mesure sans doute le mieux cet avantage. Comme tous les grands acteurs du Cloud, Google propose ainsi de nombreux services dédiés au traitement et à l'analyse dite de type Big Data ainsi que des solutions permettant de tirer par exemple parti du Machine Learning. Les participants à cette formation apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données, à réaliser des traitements sur des données structurées et non structurées et enfin à exploiter ces données grâce à de puissants outils d'analyse.
Cette formation prépare à la certification Google Professional Data Engineer.
Consulter le programme 2026
Pour qui ?

A qui s'adresse cette formation ?

Pour qui

  • Développeurs expérimentés en charge des transformations du Big Data

Prérequis

  • Avoir suivi la formation "Google Cloud Platform - Les fondamentaux du Big Data et du Machine Learning" (CC381) ou bénéficier d'une expérience équivalente
  • Maîtriser les principes de base des langages de requête courants tels que SQL
  • Connaissance pratique d’un langage de requête tel que SQL
  • Familiarité avec la modélisation de données et les processus ETL
  • Savoir développer des applications à l'aide d'un langage de programmation courant tel que Python
Programme

Le programme

1 - Introduction à l'ingénierie des données sur Google Cloud

  • Explorer le rôle d'un data engineer
  • Analyser les défis d'ingénierie des données dans le cloud
  • Présentation des concepts de Data Lake, Data Warehouse et BigQuery
  • Gestion de la gouvernance et des accès
  • Atelier

    Chargement de données dans BigQuery

2 - Réplication et migration des données

  • Architecture de réplication et de migration
  • L'outil en ligne de commande gcloud
  • Transfert de jeux de données
  • Datastream
  • Atelier

    Utiliser Datastream pour la réplication d’une base PostgreSQL vers BigQuery

3 - Réplication et migration des données

  • Architecture d’extraction et de chargement
  • L’outil en ligne de commande bq
  • Fonctionnement du BigQuery Data Transfer Service
  • Le rôle et les avantages de BigLake comme alternative au modèle Extract-Load
  • Atelier

    Découverte de BigLake : Qwik Star Lab

4 - Pipeline Extract et Load (EL)

  • Architecture type d’un pipeline EL
  • Scripts SQL et planification dans BigQuery
  • Outil Dataform
  • Atelier

    Créer et exécuter un workflow SQL avec Dataform

5 - Pipeline Extract, Load et Transform (ELT)

  • Architecture d’extraction, de transformation et de chargement (ETL)
  • Outils graphiques (GUI) de Google Cloud pour les pipelines ETL
  • Traitement par lots avec Dataproc
  • Options de traitement de données en streaming
  • Rôle de Bigtable dans les pipelines de données
  • Atelier

    Utiliser Dataproc Serverless for Spark pour charger des données dans BigQuery

    Créer un pipeline de données en streaming pour un tableau de bord en temps réel avec Dataflow

6 - Techniques d’automatisation

  • Modèles et options d’automatisation pour les pipelines de données
  • Fonctionnalités de Cloud Scheduler et Workflows pour la planification et l’orchestration
  • Rôle de Cloud Composer dans l’automatisation des flux de données complexes
  • Fonctions Cloud Run pour exécuter des tâches automatisées
  • Fonctionnement et les cas d’usage d’Eventarc
  • Atelier

    Utiliser les fonctions Cloud Run pour charger des données dans BigQuery

7 - Introduction à l’ingénierie des données

  • Le rôle de l’ingénieur data
  • Les principaux défis de l’ingénierie des données
  • Introduction à BigQuery
  • Lacs de données et entrepôts de données
  • Différences entre bases de données transactionnelles et entrepôts de données
  • Collaboration efficace avec les autres équipes data
  • Gestion des accès et gouvernance des données
  • Conception de pipelines prêts pour la production
  • Étude de cas client Google Cloud
  • Atelier

    Exploiter BigQuery pour réaliser des analyses de données

8 - Construction d’un Data Lake

  • Introduction aux data lakes
  • Options de stockage et d’ETL sur Google Cloud
  • Création d’un data lake avec Cloud Storage
  • Sécurisation de Cloud Storage
  • Gestion de différents types de données
  • Utilisation de Cloud SQL comme système OLTP
  • Atelier

    Charger des données de taxis dans Cloud SQ

9 - Construire un Data Warehouse

  • Le data warehouse moderne
  • Introduction à BigQuery
  • Prise en main de BigQuery
  • Chargement des données dans BigQuery
  • Exploration et conception de schémas
  • Champs imbriqués et répétés
  • Optimisation via le partitionnement et le clustering
  • Atelier

    Travailler avec des données JSON et des tableaux dans BigQuery

    Créer et exploiter des tables partitionnées dans BigQuery

10 - Création de pipelines de données en mode batch

  • Concepts EL, ELT et ETL
  • Comprendre les enjeux de qualité des données
  • Différentes méthodes d’exécution des opérations dans BigQuery
  • Limites et points de vigilance
  • Utilisation de l’ETL pour résoudre les problèmes de qualité des données

11 - Exécuter Spark sur Dataproc

  • L’écosystème Hadoop
  • Exécution de Hadoop sur Dataproc
  • Utilisation de Cloud Storage à la place de HDFS
  • Optimisation des performances de Dataproc
  • Atelier

    Exécuter des jobs Apache Spark sur Dataproc

12 - Traitement de données serverless avec Dataflow

  • Fonctionnalités clés de Dataflow
  • Les avantages de Dataflow pour les entreprises
  • Conception et fonctionnement des pipelines Dataflow•
  • Agrégation avec GroupByKey et Combine
  • Utilisation des entrées secondaires (Side Inputs) et des fenêtres temporelles (Windows)
  • Modèles (templates) Dataflow pour l’automatisation
  • Atelier

    Créer un pipeline Dataflow simple (Python/Java)

    Implémenter un traitement MapReduce avec Apache Beam (Python/Java)

    Utiliser les Side Inputs dans un pipeline Dataflow (Python/Java)

Evaluation

  • Cette formation fait l'objet d'une évaluation formative.
Objectifs

Les objectifs de la formation

  • Apprendre à concevoir et déployer des pipelines et des architectures pour le traitement des données
  • Comprendre comment créer et déployer des workflows de machine learning
  • Être capable d'interroger des ensembles de données
  • Comprendre comment visualiser des résultats des requêtes et créer des rapports
Evaluation

Evaluation

  • Cette formation fait l'objet d'une évaluation formative.
Points forts

Les points forts de la formation

  • Une introduction pratique et complète à la conception et au développement de systèmes de traitement de données sur Google Cloud Platform.
  • Une formation rythmée durant laquelle s'alternent les phases d'apports théoriques, d'échanges, de partages d'expériences et de mises en situation.
  • Une formation animée par un formateur certifié Google Cloud Platform.
  • La qualité d'une formation officielle Google (support de cours en anglais).
  • 82% des participants à cette formation se sont déclarés satisfaits ou très satisfaits au cours des 12 derniers mois.

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Dates

  • 3 250,00 € HT
    Places disponibles
    S'inscrire
Consulter les dates 2026
Formation - Google Cloud Platform - Ingénierie de données