A distance

Durée

28 heures

Prix

3 250,00 € HT

Référence

CC401

Référence éditeur

GCP200-DE

Consulter les dates

Choisir une session

Formation dans votre entreprise

Durée

28 heures

Référence

CC401

Référence éditeur

GCP200-DE

Demander un devis

Formation à la demande

Cette thématique vous intéresse ?
Nos experts conçoivent votre formation
sur-mesure !

Nous contacter

Télécharger le PDF

Ajouter à ma sélection

Nous contacter

Si les bénéfices liés à l'adoption du Cloud sont aujourd'hui nombreux (disponibilité, agilité, adaptabilité, gains financiers, ...), l'une des principales vertus de cette révolution est de pouvoir accéder à des outils et à des puissances de traitement qu'il serait bien souvent difficile de s'offrir (et de rentabiliser) dans un modèle traditionnel. C'est notamment dans le cadre du traitement et de l'analyse de très importants volumes de données (Big Data) que se mesure sans doute le mieux cet avantage. Comme tous les grands acteurs du Cloud, Google propose ainsi de nombreux services dédiés au traitement et à l'analyse dite de type Big Data ainsi que des solutions permettant de tirer par exemple parti du Machine Learning. Les participants à cette formation apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données, à réaliser des traitements sur des données structurées et non structurées et enfin à exploiter ces données grâce à de puissants outils d'analyse.
Cette formation prépare à la certification Google Professional Data Engineer.

Pour qui ?

A qui s'adresse cette formation ?

Pour qui

Développeurs expérimentés en charge des transformations du Big Data

Prérequis

Avoir suivi la formation "Google Cloud Platform - Les fondamentaux du Big Data et du Machine Learning" (CC381) ou bénéficier d'une expérience équivalente
Maîtriser les principes de base des langages de requête courants tels que SQL
Avoir de l'expérience en modélisation, extraction, transformation et chargement des données
Savoir développer des applications à l'aide d'un langage de programmation courant tel que Python
Savoir utiliser le Machine Learning et/ou les statistiques

Programme

Le programme

1 - Introduction à l'ingénierie des données

Explorer le rôle d'un data engineer
Analyser les défis d'ingénierie des données
Introduction à BigQuery
Data lakes et data warehouses
Démo: requêtes fédérées avec BigQuery
Bases de données transactionnelles vs data warehouses
Démo: recherche de données personnelles dans votre jeu de données avec l'API DLP
Travailler efficacement avec d'autres équipes de données
Gérer l'accès aux données et gouvernance
Construire des pipelines prêts pour la production
Etude de cas d'un client GCP
Lab : Analyse de données avec BigQuery

2 - Construire un Data Lake

Introduction aux data lakes
Stockage de données et options ETL sur GCP
Construction d'un data lake à l'aide de Cloud Storage
Démo : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
Sécurisation de Cloud Storage
Stocker tous les types de données
Démo : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
Cloud SQL en tant que data lake relationnel

3 - Construire un Data Warehouse

Le data warehouse moderne
Introduction à BigQuery
Démo : Requêter des TB + de données en quelques secondes
Commencer à charger des données
Démo: Interroger Cloud SQL à partir de BigQuery
Lab : Chargement de données avec la console et la CLI
Explorer les schémas
Exploration des jeux de données publics BigQuery avec SQL à l'aide de Information_Schema
Conception de schéma
Démo : Exploration des jeux de données publics BigQuery avec SQL à l'aide de Information_Schema
Champs imbriqués et répétés dans BigQuery
Lab : tableaux et structures
Optimiser avec le partitionnement et le clustering
Démo : Tables partitionnées et groupées dans BigQuery
Aperçu : Transformation de données par lots et en continu

4 - Introduction à la construction de pipelines de données par lots EL, ELT, ETL

Considérations de qualité
Comment effectuer des opérations dans BigQuery
Démo : ETL pour améliorer la qualité des données dans BigQuery
Des lacunes
ETL pour résoudre les problèmes de qualité des données

5 - Exécution de Spark sur Cloud Dataproc

L'écosystème Hadoop
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
Optimiser Dataproc
Atelier : Exécution de jobs Apache Spark sur Cloud Dataproc

6 - Traitement de données sans serveur avec Cloud Dataflow

Cloud Dataflow
Pourquoi les clients apprécient-ils Dataflow ?
Pipelines de flux de données
Lab : Pipeline de flux de données simple (Python / Java)
Lab : MapReduce dans un flux de données (Python / Java)
Lab : Entrées latérales (Python / Java)
Templates Dataflow
Dataflow SQL

7 - Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l'interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
Lab : Construction et exécution d'un graphe de pipeline dans Cloud Data Fusion
Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow
Environment : DAG et opérateurs, planification du flux de travail
Démo : Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
Lab : Introduction à Cloud Composer

8 - Introduction au traitement de données en streaming

Traitement des données en streaming

9 - Serverless messaging avec Cloud Pub/Sub

Cloud Pub/Sub
Lab : Publier des données en continu dans Pub/Sub

10 - Fonctionnalités streaming de Cloud Dataflow

Fonctionnalités streaming de Cloud Dataflow
Lab : Pipelines de données en continu

11 - Fonctionnalités Streaming à haut débit BigQuery et Bigtable

Fonctionnalités de streaming BigQuery
Lab : Analyse en continu et tableaux de bord
Cloud Bigtable
Lab : Pipelines de données en continu vers Bigtable

12 - Fonctionnalité avancées de BigQuery et performance

Analytic Window Functions
Utiliser des clauses With
Fonctions SIG
Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
Considérations de performance
Lab : Optimisation de vos requêtes BigQuery pour la performance
Lab : Création de tables partitionnées par date dans BigQuery

13 - Introduction à l'analytique et à l'IA

Qu'est-ce que l'IA?
De l'analyse de données ad hoc aux décisions basées sur les données
Options pour modèles ML sur GCP

14 - API de modèle ML prédéfinies pour les données non structurées

Les données non structurées sont difficiles à utiliser
API ML pour enrichir les données
Lab : Utilisation de l'API en langage naturel pour classer le texte non structuré

15 - Big Data Analytics avec les notebooks Cloud AI Platform

Qu'est-ce qu'un notebook
BigQuery Magic et liens avec Pandas
Lab : BigQuery dans Jupyter Labs sur IA Platform

16 - Pipelines de production ML avec Kubeflow

Façons de faire du ML sur GCP
Kubeflow AI Hub
Lab : Utiliser des modèles d'IA sur Kubeflow

17 - Création de modèles personnalisés avec SQL dans BigQuery ML

BigQuery ML pour la construction de modèles rapides
Démo : Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
Modèles pris en charge
Lab : Prédire la durée d'une sortie à vélo avec un modèle de régression dans BigQuery ML
Lab : Recommandations de film dans BigQuery ML

18 - Création de modèles personnalisés avec Cloud AutoML

Pourquoi Auto ML?
Auto ML Vision
Auto ML NLP
Auto ML Tables

Evaluation

Cette formation fait l'objet d'une évaluation formative.

Objectifs

Les objectifs de la formation

Apprendre à concevoir et déployer des pipelines et des architectures pour le traitement des données
Comprendre comment créer et déployer des workflows de machine learning
Être capable d'interroger des ensembles de données
Comprendre comment visualiser des résultats des requêtes et créer des rapports

Evaluation

Cette formation fait l'objet d'une évaluation formative.

Points forts

Les points forts de la formation

Une introduction pratique et complète à la conception et au développement de systèmes de traitement de données sur Google Cloud Platform.
Une formation rythmée durant laquelle s'alternent les phases d'apports théoriques, d'échanges, de partages d'expériences et de mises en situation.
Une formation animée par un formateur certifié Google Cloud Platform.
La qualité d'une formation officielle Google (support de cours en anglais).

Qualité des formations

ib Cegos est certifié Iso 9001 et Qualiopi.

En savoir plus

Dates

3 250,00 € HT
Places disponibles
S'inscrire
3 250,00 € HT
Places disponibles
S'inscrire

Formation - Google Cloud Platform - Ingénierie de données

Forfait Intra

Le forfait Intra comprend :

La formation dans vos locaux pour un groupe de 12 personnes maximum
L'ensemble des activités pédagogiques prévues dans la fiche de présentation de la formation
La documentation au format numérique
L'évaluation et l'émargement dématérialisés

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis

Es entstehen keine zusätzlichen Liefer- & Versandkosten

Formation - Google Cloud Platform - Ingénierie de données

Concevoir et développer des systèmes de traitement de données sur GCP

A qui s'adresse cette formation ?

Pour qui

Prérequis

Le programme

1 - Introduction à l'ingénierie des données

2 - Construire un Data Lake

3 - Construire un Data Warehouse

4 - Introduction à la construction de pipelines de données par lots EL, ELT, ETL

5 - Exécution de Spark sur Cloud Dataproc

6 - Traitement de données sans serveur avec Cloud Dataflow

7 - Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

8 - Introduction au traitement de données en streaming

9 - Serverless messaging avec Cloud Pub/Sub

10 - Fonctionnalités streaming de Cloud Dataflow

11 - Fonctionnalités Streaming à haut débit BigQuery et Bigtable

12 - Fonctionnalité avancées de BigQuery et performance

13 - Introduction à l'analytique et à l'IA

14 - API de modèle ML prédéfinies pour les données non structurées

15 - Big Data Analytics avec les notebooks Cloud AI Platform

16 - Pipelines de production ML avec Kubeflow

17 - Création de modèles personnalisés avec SQL dans BigQuery ML

18 - Création de modèles personnalisés avec Cloud AutoML

Evaluation

Les objectifs de la formation

Evaluation

Les points forts de la formation

Qualité des formations

Dates

Forfait Intra

Recevoir le programme par email

Envoyer le programme à un collaborateur

Preis