Descripción de Trabajo: Ingeniero de Datos -
Desarrollo de Proceso ETL en AWS Glue
Objetivo del Proyecto:El proyecto busca
desarrollar una solución en AWS Glue para procesar las huellas de consulta
generadas en el entorno de ingesta de datos. Las huellas deben ser procesadas
con reglas de negocio definidas para luego ser exportadas en formato JSON con
extensión Parquet. Esta salida será utilizada como insumo para poblar el modelo
en RedShift para huellas de consulta, optimizando el pipeline de datos.
Responsabilidades:
· Desarrollar y ejecutar un flujo ETL
utilizando AWS Glue para procesar las huellas de consulta
disponibles en un Bucket de S3.
· Aplicar reglas de negocio predefinidas sobre las
huellas de consulta para generar un archivo de salida en formato Parquet.
· Asegurar que el formato y los datos procesados
sean compatibles con las necesidades del modelo de datos en RedShift.
· Colaborar con el equipo de ingesta y expertos en
Cobol para entender la estructura de las huellas de consulta y los requisitos
de negocio.
· Implementar procedimientos de validación y
limpieza de datos antes de la transformación final.
· Gestionar la correcta integración entre el
sistema de ingesta y el pipeline de AWS Glue.
· Optimizar el rendimiento del proceso ETL,
asegurando tiempos de ejecución adecuados y minimizando costos en AWS.
· Documentar el código, procesos y flujos de
trabajo para asegurar la trazabilidad y la mantenibilidad.
· Experiencia con AWS Glue para la
implementación de flujos ETL en la nube.
· Conocimiento práctico de Python para
la creación de transformaciones de datos personalizadas.
· Experiencia con S3 como fuente y
destino de datos.
· Conocimiento en el formato Parquet y
su utilización en flujos de datos grandes.
· Experiencia en la creación de tablas y
consultas en Amazon RedShift.
· Familiaridad con procesamiento en batch y
optimización de ETL en grandes volúmenes de datos.
· Conocimiento de reglas de negocio y
validación de datos en el contexto de datos estructurados y no
estructurados.
· Capacidad para trabajar de manera colaborativa
con equipos multifuncionales, incluyendo expertos en Cobol y equipos de ingesta
de datos.
· Experiencia en herramientas de monitoreo y
gestión de jobs en AWS Glue y S3.
· Conocimiento de JSON y su
manipulación en flujos ETL.
Deseable:
· Conocimiento de DevOps y
herramientas de automatización en la nube, especialmente para la gestión de
pipelines ETL.
· Familiaridad con AWS IAM para
la gestión de permisos y seguridad de datos en los procesos ETL.
1. AWS Glue: Es la herramienta principal que
se usará para desarrollar el flujo ETL.
2. S3: Será el origen de los datos (huellas
de consulta), por lo que el candidato debe tener experiencia con esta
tecnología.
3. Parquet: Es el formato de salida, por lo
que el candidato debe conocer cómo trabajar con este formato de archivo en el
contexto de Big Data.
4. RedShift: El trabajo realizado será
utilizado para poblar un modelo en RedShift, por lo que es esencial conocer el
ecosistema de RedShift y la optimización de datos para su carga.
Fieldwire
Discord
Serrala
Samsara
Yo Hr Consultancy