-
En règle générale, les pipelines de données fonctionnent sur le modèle "Extraction et chargement" (EL), "Extraction, chargement et transformation" (ELT), ou "Extraction, transformation et chargement" (ETL). Dans ce cours, vous apprendrez où et quand appliquer ces différents modèles à des lots de données. Vous découvrirez également plusieurs technologies Google Cloud Platform permettant de transformer des données, y compris BigQuery, Spark exécuté sur Cloud Dataproc, les graphiques de pipelines dans Cloud Data Fusion et le traitement de données sans serveur avec Cloud Dataflow. Vous aurez en outre l'occasion de créer les composants d'un pipeline de données sur Google Cloud Platform dans le cadre d'un atelier pratique QwikLabs.
Overview
Syllabus
-
- Introduction
- Dans ce module, nous présentons le cours et son programme.
- Introduction aux pipelines de données par lots
- Ce module présente les différentes méthodes de chargement de données (EL, ELT et ETL) et leurs cas d'utilisation.
- Exécuter Spark sur Cloud Dataproc
- Dans ce module, vous apprendrez à exécuter Hadoop sur Cloud Dataproc, à exploiter GCS et à optimiser vos tâches Dataproc.
- Gérer des pipelines de données avec Cloud Data Fusion et Cloud Composer
- Dans ce module, vous apprendrez à gérer des pipelines de données avec Cloud Data Fusion et Cloud Composer.
- Traiter des données sans serveur avec Cloud Dataflow
- Dans ce module, vous apprendrez à créer vos pipelines de traitement de données avec Cloud Dataflow.
- Résumé
- Ce module récapitule les sujets abordés dans ce cours.