Offer summary

Qualifications:

Experience with AWS Glue for implementing ETL flows in the cloud., Practical knowledge of Python for creating custom data transformations., Familiarity with S3 as a data source and destination., Understanding of Parquet format and its use in large data flows..

Key responsibilities:

Develop and execute an ETL flow using AWS Glue to process query footprints from an S3 Bucket.

Apply predefined business rules to generate output files in Parquet format.

Ensure processed data is compatible with the data model requirements in RedShift.

Collaborate with ingestion teams and Cobol experts to understand query footprint structure and business requirements.

Job description

Descripción de Trabajo: Ingeniero de Datos - Desarrollo de Proceso ETL en AWS Glue

Objetivo del Proyecto:El proyecto busca desarrollar una solución en AWS Glue para procesar las huellas de consulta generadas en el entorno de ingesta de datos. Las huellas deben ser procesadas con reglas de negocio definidas para luego ser exportadas en formato JSON con extensión Parquet. Esta salida será utilizada como insumo para poblar el modelo en RedShift para huellas de consulta, optimizando el pipeline de datos.

Responsabilidades:

· Desarrollar y ejecutar un flujo ETL utilizando AWS Glue para procesar las huellas de consulta disponibles en un Bucket de S3.

· Aplicar reglas de negocio predefinidas sobre las huellas de consulta para generar un archivo de salida en formato Parquet.

· Asegurar que el formato y los datos procesados sean compatibles con las necesidades del modelo de datos en RedShift.

· Colaborar con el equipo de ingesta y expertos en Cobol para entender la estructura de las huellas de consulta y los requisitos de negocio.

· Implementar procedimientos de validación y limpieza de datos antes de la transformación final.

· Gestionar la correcta integración entre el sistema de ingesta y el pipeline de AWS Glue.

· Optimizar el rendimiento del proceso ETL, asegurando tiempos de ejecución adecuados y minimizando costos en AWS.

· Documentar el código, procesos y flujos de trabajo para asegurar la trazabilidad y la mantenibilidad.

Requisitos

· Experiencia con AWS Glue para la implementación de flujos ETL en la nube.

· Conocimiento práctico de Python para la creación de transformaciones de datos personalizadas.

· Experiencia con S3 como fuente y destino de datos.

· Conocimiento en el formato Parquet y su utilización en flujos de datos grandes.

· Experiencia en la creación de tablas y consultas en Amazon RedShift.

· Familiaridad con procesamiento en batch y optimización de ETL en grandes volúmenes de datos.

· Conocimiento de reglas de negocio y validación de datos en el contexto de datos estructurados y no estructurados.

· Capacidad para trabajar de manera colaborativa con equipos multifuncionales, incluyendo expertos en Cobol y equipos de ingesta de datos.

· Experiencia en herramientas de monitoreo y gestión de jobs en AWS Glue y S3.

· Conocimiento de JSON y su manipulación en flujos ETL.

Deseable:

· Conocimiento de DevOps y herramientas de automatización en la nube, especialmente para la gestión de pipelines ETL.

· Familiaridad con AWS IAM para la gestión de permisos y seguridad de datos en los procesos ETL.

1. AWS Glue: Es la herramienta principal que se usará para desarrollar el flujo ETL.

2. S3: Será el origen de los datos (huellas de consulta), por lo que el candidato debe tener experiencia con esta tecnología.

3. Parquet: Es el formato de salida, por lo que el candidato debe conocer cómo trabajar con este formato de archivo en el contexto de Big Data.

4. RedShift: El trabajo realizado será utilizado para poblar un modelo en RedShift, por lo que es esencial conocer el ecosistema de RedShift y la optimización de datos para su carga.

Required profile