-
De forma geral, os pipelines de dados se enquadram em um dos seguintes modelos: extrair-carregar, extrair-carregar-transformar ou extrair-transformar-carregar. Neste curso, descrevemos qual modelo deve ser usado e quando usá-lo para os dados em lote. Também tratamos de diversas tecnologias de transformação de dados disponíveis no Google Cloud Platform, como o BigQuery, a execução do Spark no Cloud Dataproc, os gráficos de pipeline no Cloud Data Fusion e o processamento de dados sem servidor com o Cloud Dataflow. Na atividade prática do Qwiklabs, os participantes criarão componentes de pipeline de dados no Google Cloud Platform.
Overview
Syllabus
-
- Introdução
- Neste módulo, apresentaremos o curso e a programação
- Introdução aos pipelines de dados em lote
- Neste módulo, falaremos sobre os diferentes métodos de carregamento de dados: EL, ELT e ETL, e quando usar cada um deles
- Como executar o Spark no Cloud Dataproc
- Neste módulo, mostraremos como executar o Hadoop no Cloud Dataproc, como usar o GCS e como otimizar seus jobs do Dataproc
- Gerencie pipelines de dados com o Cloud Data Fusion e o Cloud Composer
- Neste módulo, mostraremos como gerenciar pipelines de dados com o Cloud Data Fusion e o Cloud Composer.
- Processamento de dados sem servidor com o Cloud Dataflow
- Neste módulo, explicaremos como usar o Cloud Dataflow para criar pipelines de processamento de dados
- Resumo
- Neste módulo, revisaremos os temas abordados no curso