Key Facts

Remote From:

Full time

Spanish

Hard Skills

Azure Data Lake Apache Spark SQL (Programming Language) Databricks Databricks Git (Version Control System) Computer Data Storage Data Transformation Cluster Development Job Analysis +13 more

Other Skills

•
Teamwork
•
Collaboration
•
Communication

Roles & Responsibilities

Experience with Databricks (notebooks, clusters and jobs)
Advanced PySpark skills
Experience with Azure Data Lake Storage Gen2 (ADLS Gen2)
Proficiency in SQL for data processing

Requirements:

Develop data pipelines in Databricks using PySpark to process large data volumes.
Design and implement ingestion, transformation, and storage solutions in Azure Data Lake Storage Gen2.
Create and maintain Databricks notebooks for ETL/ELT, and manage Databricks clusters and jobs for efficient execution.
Implement CI/CD for pipelines and notebooks, manage versioning with Git, and collaborate in Agile environments.

Job description

📍 Modalidad: Remoto
💰 Tarifa: 30k – 35k
🧠 Experiencia: 2 – 3 años
🌍 Idioma: Inglés alto (imprescindible)
🚫 Guardias: No requeridas

🧩 Descripción del puesto

Buscamos un/a Data Engineer especializado/a en Databricks y PySpark para incorporarse a un proyecto de analítica de datos en entorno cloud, trabajando con arquitecturas modernas basadas en Azure.

La persona seleccionada participará en el diseño, desarrollo y optimización de pipelines de datos, asegurando la calidad, eficiencia y escalabilidad de los procesos analíticos.

🔧 Responsabilidades

Desarrollo de pipelines de datos en Databricks utilizando PySpark para procesamiento de grandes volúmenes de información.
Implementación de soluciones de ingesta, transformación y almacenamiento de datos en Azure Data Lake Storage Gen2 (ADLS Gen2).
Creación y mantenimiento de notebooks en Databricks, orientados a procesos ETL/ELT.
Gestión y optimización de clusters de Databricks para ejecución eficiente de jobs distribuidos.
Orquestación de procesos de datos mediante Databricks Jobs.
Desarrollo de consultas avanzadas en SQL para análisis, validación y explotación de datos.
Implementación de procesos de CI/CD para despliegue de pipelines y notebooks.
Control de versiones y colaboración mediante Git.
Colaboración con equipos técnicos en entornos Agile.

🧠 Requisitos técnicos obligatorios

Experiencia en Databricks (notebooks, clusters y jobs).
Sólidos conocimientos en PySpark (nivel avanzado / P5).
Experiencia en Azure Data Lake Storage Gen2 (ADLS Gen2).
Dominio de SQL para tratamiento de datos.
Experiencia con Git y procesos CI/CD.
Nivel de inglés alto (imprescindible).

⭐ Requisitos deseables

Conocimientos en Python para procesamiento de datos.
Experiencia con nuevas funcionalidades de Databricks como:
- Delta Live Tables (DLT)
- Liquid Clustering
- Optimización de Delta Lake
Experiencia en entornos cloud Azure y arquitectura de datos moderna.