Buscamos um(a) Engenheiro(a) de Dados para integrar nosso time em um projeto de estruturação da plataforma de dados de um cliente do setor de serviços financeiros e gestão de ativos. Você será responsável por dar vida às definições arquiteturais, transformando diretrizes técnicas em pipelines robustos, modelos de dados consistentes e soluções escaláveis que permitirão ao cliente organizar e extrair valor de seus dados — hoje dispersos em planilhas e repositórios não estruturados.
Neste papel, você atuará de forma operacional e colaborativa, implementando pipelines de ELT/ETL, construindo as camadas do Data Lake/Lakehouse e garantindo a qualidade e rastreabilidade dos dados, sempre sob orientação do(a) Arquiteto(a) de Dados. O ambiente é de small data com foco em integração e estruturação, o que valoriza profundidade técnica, bom senso de engenharia e capacidade de entregar com autonomia dentro do escopo definido.
Responsabilidades:
Desenvolvimento de Pipelines: Implementar pipelines de ELT/ETL para ingestão, transformação e disponibilização de dados a partir de fontes diversas, incluindo planilhas, SharePoint e bases relacionais, seguindo os padrões definidos pela arquitetura;
Construção da Plataforma de Dados: Construir e organizar as camadas do Data Lake/Lakehouse (Bronze, Silver e Gold / Medallion Architecture) com formatos otimizados como Delta Lake e Parquet;
Transformação e Modelagem: Desenvolver transformações de dados utilizando PySpark e SQL avançado, implementando modelos definidos pela arquitetura nas camadas analíticas da plataforma;
Estratégias de Ingestão: Implementar estratégias de carga (full load ou incremental) adequadas ao volume e criticidade de cada domínio de dados — com foco em eficiência para contextos de small data;
Qualidade de Dados: Implementar testes e verificações automatizadas de qualidade de dados nos pipelines, garantindo consistência, integridade e rastreabilidade ao longo das camadas;
Catalogação e Governança: Apoiar a catalogação e documentação de ativos de dados com foco em linhagem e classificação, seguindo diretrizes de governança definidas pelo(a) Arquiteto(a), estabelecendo um catálogo de dados unificado como elemento central de gestão da plataforma;
Observabilidade: Garantir a observabilidade dos pipelines por meio de logs, alertas e monitoramento proativo;
Documentação: Documentar modelos, transformações e regras de negócio aplicadas nos pipelines, garantindo rastreabilidade e manutenibilidade da solução.
Requisitos para o desafio:
Experiência comprovada com Engenharia de Dados em ambientes de nuvem;
Sólida experiência com PySpark para desenvolvimento de pipelines e transformações de dados em plataformas distribuídas;
Experiência com SQL avançado para consultas, transformações e modelagem analítica;
Conhecimento de Microsoft Azure (Azure Data Factory, ADLS Gen2 e/ou Microsoft Fabric);
Experiência com formatos de dados como Delta Lake, Parquet ou ORC;
Experiência com arquiteturas de Data Lake, Lakehouse e Medallion Architecture;
Experiência com catalogação e linhagem de dados, incluindo Unity Catalog (Databricks);
Diferenciais:
Experiência com Databricks e/ou Snowflake como plataforma de processamento de dados;
Familiaridade com Microsoft Fabric (Lakehouses, Notebooks, Pipelines ou Dataflows);
Experiência com Microsoft Purview para catalogação e linhagem de dados;
Conhecimento de dbt para transformações e testes de qualidade de dados;
Experiência com orquestração de pipelines via Apache Airflow ou Prefect;
Certificação DP-700 ou equivalente;
Boas práticas de desenvolvimento: versionamento com Git, testes automatizados, documentação e CI/CD;
Familiaridade com Gen AI e agentes autônomos aplicados a dados.

Cotiviti

Avalara

SiriusXM

Syms Strategic Group, LLC (SSG)

Cayuse Holdings

Ci&T

Ci&T

Ci&T