Logo for Leega

Engenheiro de Dados Sênior

Roles & Responsibilities

  • Domínio de SQL e otimização de queries em ambientes distribuídos (Mínimo 5 anos)
  • Python com experiência sólida em PySpark ou processamento distribuído
  • Orquestração (Airflow), ELT e dbt aplicados em larga escala (Mínimo 4 anos)
  • Streaming (Kafka, Flink) e arquiteturas Lakehouse com Apache Iceberg (Mínimo 3 anos)

Requirements:

  • Arquitetar e evoluir o datalake da companhia
  • Desenhar e evoluir o data lake em Apache Iceberg sobre S3
  • Construir ingestão em tempo real com Kafka, Flink, CDC com Debezium
  • Modelar a camada de transformação em dbt e orquestrar fluxos batch em Airflow

Job description

JOB DESCRIPTION


A Leega é uma empresa focada no atendimento eficiente e inovador em seus clientes. 

Isso não poderia ser diferente com o nosso principal combustível: as pessoas!  

Nossa cultura é inspiradora e nossos valores estão presentes no dia a dia: ética e transparência, excelência de qualidade, trabalho em equipe, responsabilidade econômica, social e ambiental, relações humanas e credibilidade.

Buscamos profissionais inovadores que sejam movidos por desafios e focados em resultados.

Se você busca uma empresa dinâmica e parceira e que investe em seus colaboradores através de capacitação constante, a Leega é o lugar para você!

>> A LEEGA É PARA TODOS, ficaremos muito felizes em ter você em nosso time. Venha fazer parte da nossa história e da construção do nosso futuro. 

Cadastre-se agora mesmo em nossas vagas!


RESPONSIBILITIES AND ASSIGNMENTS


Sobre a oportunidade

Você vai arquitetar e evoluir o datalake que é o sistema nervoso de dados da companhia — a fundação que alimenta, em tempo real, o motor de precificação dinâmica, os modelos de ML e a inteligência comercial do grupo. É um papel de dono: você define a arquitetura Lakehouse multi-tenant, do streaming à camada semântica, e responde pela sua confiabilidade, governança e custo. 


Seus Desafios 

Arquitetura Lakehouse — desenhar e evoluir o data lake em Apache Iceberg sobre S3 — camadas bem definidas, particionamento e compaction, time-travel e suporte a DELETE/UPDATE para a LGPD. 

Streaming e CDC — construir ingestão em tempo real (Kafka, Flink, CDC com Debezium) com evolução de schema controlada (Schema Registry) e garantias de entrega. 

Transformação e orquestração — modelar a camada de transformação em dbt e orquestrar fluxos batch e de qualidade em Airflow, do crawler ao backfill. 

Camada semântica — manter as definições de métricas em Cube.js — a fonte única que alimenta o BI e os agentes de IA e garante consistência em toda a empresa. 

Acesso e performance — operar consulta federada e OLAP de baixa latência sobre o lake, com isolamento de custo e acesso por tenant e queries performáticas. 

Qualidade, linhagem e FinOps — assegurar testes de dados, lineage e eficiência de custo, mantendo a plataforma confiável à medida que escala. 


Você trabalha lado a lado com cientistas de dados, ML engineers e as áreas de negócio.


REQUIREMENTS AND QUALIFICATIONS


Stack & Ferramentas 

  • Lakehouse & storage: Apache Iceberg, Amazon S3, Athena + Glue (Trino + Hive na evolução) 
  • Streaming & ingestão: Kafka (MSK), Apache Flink, Debezium (CDC), Schema Registry
  • Transformação & orquestração: dbt, Apache Airflow 
  • Semantic layer & OLAP: Cube.js, ClickHouse, Apache Pinot, Trino 
  • Governança & qualidade: OpenMetadata, Lake Formation, Great Expectations
  • Infra & dev: EKS/Kubernetes, ArgoCD, Crossplane, GitHub, Claude Code 


O que Buscamos 

Essenciais 

• Domínio de SQL e otimização de queries em ambientes distribuídos (Mínimo 5 anos).

• Python com experiência sólida em PySpark ou processamento distribuído.

• Orquestração (Airflow), ELT e dbt aplicados em larga escala (Mínimo 4 anos)

• Streaming (Kafka, Flink) e arquiteturas Lakehouse com Apache Iceberg (Mínimo 3 anos).

• Sólida noção de governança, qualidade e modelagem de dados. 

• Conforto com desenvolvimento assistido por IA (Claude Code). 


Diferenciais 

• CDC (Debezium) e OLAP de baixa latência (ClickHouse, Pinot, Trino/Athena).

• Semantic Layers (Cube.js, dbt) e arquiteturas Data Mesh.

• Governança e catálogo (OpenMetadata, Lake Formation). 

• Vector databases (Qdrant) e pipelines de dados para ML. 



ADDITIONAL INFORMATION


Trabalho Remoto

Tempo de Projeto: 6 meses, com possibilidade de extensão/internalização.


Onde a inteligência humana amplifica o poder dos dados


Na Leega, não entregamos apenas linhas de código ou dashboards. Transformamos desafios tecnológicos complexos em impacto real. Com mais de 15 anos de estrada, unimos a profundidade da experiência humana à velocidade da Inteligência Artificial para criar soluções que mudam negócios e, acima de tudo, melhoram a vida das pessoas.

Somos uma consultoria de tecnologia, agnóstica e estratégica. Com escritórios no Brasil e na Europa, nosso time de mais de 580 talentos multidisciplinares vive e respira o ecossistema de Data Analytics, Cloud e IA. Dominamos a base, da Governança à Engenharia, para garantir que a tecnologia não seja apenas uma ferramenta, mas uma vantagem competitiva sustentável para os maiores players do mercado.


Data Engineer Related jobs

Other jobs at Leega

We help you get seen. Not ignored.

We help you get seen faster — by the right people.

🚀

Auto-Apply

We apply for you — automatically and instantly.

Save time, skip forms, and stay on top of every opportunity. Because you can't get seen if you're not in the race.

AI Match Feedback

Know your real match before you apply.

Get a detailed AI assessment of your profile against each job posting. Because getting seen starts with passing the filters.

Upgrade to Premium. Apply smarter and get noticed.

Upgrade to Premium

Join thousands of professionals who got noticed and hired faster.