- Introducción
- En este módulo, se presenta el curso y su descripción
- Revisión de conceptos de Beam
- Revise los conceptos principales de Apache Beam y cómo aplicarlos para escribir sus propias canalizaciones de procesamiento de datos.
- Ventanas, marcas de agua y activadores
- En este módulo, aprenderá a procesar datos en transmisiones con Dataflow. Para ello, debe conocer tres conceptos principales: cómo agrupar datos en ventanas, la importancia de las marcas de agua para saber cuándo la ventana está lista para producir resultados, y cómo puede controlar cuándo y cuántas veces los emitirá la ventana.
- Fuentes y receptores
- En este módulo, aprenderá acerca de las características de las fuentes y los receptores en Google Cloud Dataflow. En el módulo hay algunos ejemplos de E/S de Text, E/S de File, E/S de BigQuery, E/S de PubSub, E/S de KafKa, E/S de BigTable, E/S de Avro y DoFn divisible. En el módulo también se indican algunas funciones útiles asociadas a cada E/S.
- Esquemas
- En este módulo, se presentarán los esquemas, que les proporcionan a los desarrolladores una manera de expresar datos estructurados en sus canalizaciones de Beam.
- Estado y Temporizadores
- Este módulo abarca Estado y Temporizadores, dos funciones potentes que puede usar en su DoFn para implementar transformaciones con estado.
- Prácticas Recomendadas
- En este módulo, analizaremos las prácticas recomendadas y revisaremos patrones comunes que maximizan el rendimiento de sus canalizaciones de Dataflow.
- Dataflow SQL y DataFrames
- En este módulo, se mencionan dos API nuevas para representar su lógica empresarial en Beam: SQL y Dataframes.
- Notebooks de Beam
- Este módulo abarcará notebooks de Beam, una interfaz para desarrolladores de Python a fin de realizar incorporaciones en el SDK de Beam y desarrollar sus canalizaciones iterativamente en un entorno de notebooks Jupyter.
- Resumen
- En este módulo, se ofrece un resumen del curso.