Building Batch Data Pipelines on GCP en Español

Por: Coursera . en: ,

Overview

Por lo general, la canalización de datos se clasifica en uno de los siguientes paradigmas: Extraer-cargar, Extraer-cargar-transformar o Extraer-transformar-cargar. En este curso, se describe cuál es el paradigma que se debe usar y en qué momento usarlo para los datos por lotes. Además, en este curso, se presentan diferentes tecnologías de Google Cloud Platform para la transformación de datos, entre las que se incluyen BigQuery, la ejecución de Spark en Cloud Dataproc, los gráficos de canalización en Cloud Data Fusion y el procesamiento de datos sin servidores mediante Cloud Dataflow. Los participantes obtendrán experiencia práctica sobre cómo compilar los componentes de la canalización de datos en Google Cloud Platform mediante QwikLabs.

Syllabus

Introducción
-En este módulo, se presentan el curso y el temario

Introducción a las canalizaciones de datos por lotes
-En este módulo, se revisan los diferentes métodos de carga de datos (EL, ELT y ETL) y cuándo utilizarlos

Cómo ejecutar Spark en Cloud Dataproc
-En este módulo, se muestra cómo ejecutar Hadoop en Cloud Dataproc, cómo aprovechar GCS y cómo optimizar sus trabajos de Dataproc.

Administre canalizaciones de datos con Cloud Data Fusion y Cloud Composer
-En este módulo, se muestra cómo administrar canalizaciones de datos con Cloud Data Fusion y Cloud Composer.

Procesamiento de datos sin servidores con Cloud Dataflow
-En este módulo, se describe cómo usar Cloud Dataflow para compilar sus canalizaciones de procesamiento de datos

Resumen
-En este módulo, se revisan los temas que se trataron en este curso

Plataforma