Este é um cargo remoto.
Oportunidade: Data Engineer (Engenheiro de Dados) - Pleno
Requisitos Obrigatórios:
Experiência comprovada no desenvolvimento e implementação de pipelines de dados em escala de produção.
Forte domínio de Python, PySpark e SQL avançado (window functions, CTEs, otimização de performance).
Experiência prática em projetos de migração de dados.
Experiência com pelo menos uma grande plataforma de cloud (AWS, Azure ou GCP).
Experiência com Databricks, serviços de dados da AWS ou Microsoft Fabric para desenvolvimento de pipelines.
Experiência com data warehouses modernos, como Snowflake, BigQuery, Redshift ou Databricks.
Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB).
Experiência com ferramentas de migração de dados para ambientes on-premises ou cloud (ex.: SSIS).
Experiência prática com Apache Spark / PySpark e agendamento de workflows (AWS Glue ou similar).
Familiaridade com Infrastructure as Code (Terraform, Docker).
Experiência com pipelines de CI/CD (preferencialmente GitHub Actions).
Forte conhecimento em modelagem de dados (Star Schema, Data Vault, Modelagem Dimensional).
Diferenciais:
Experiência em estratégia e planejamento de migração de dados.
Experiência na implementação de soluções de Change Data Capture (CDC).
Conhecimento em tecnologias de streaming, como Kafka ou Kinesis.
Experiência com desenvolvimento de pipelines RAG e aplicações baseadas em GenAI.
Conhecimento de arquiteturas orientadas a eventos e integração com microservices.
Principais Responsabilidades:
Projetar e construir pipelines de dados ETL/ELT escaláveis utilizando dbt, PySpark e outras ferramentas modernas de transformação.
Desenvolver e manter pipelines de ingestão de dados para workloads de GenAI, incluindo processamento de documentos, chunking e workflows de embeddings.
Orquestrar workflows utilizando Airflow, Dagster ou ferramentas nativas de orquestração em cloud.
Planejar e executar projetos de migração de dados, incluindo análise da fonte de dados, mapeamento de schema, validação e estratégias de rollback.
Implementar soluções de Change Data Capture (CDC) utilizando ferramentas padrão do mercado.
Construir e manter frameworks de qualidade de dados com testes automatizados e validações.
Garantir governança, segurança e conformidade dos dados, incluindo tratamento adequado de PII (dados pessoais identificáveis) e aplicação de políticas RBAC (controle de acesso baseado em funções).
Colaborar com Engenheiros de IA e Desenvolvedores Full Stack para dar suporte a pipelines RAG e aplicações baseadas em GenAI.
Aplicar conceitos de arquitetura orientada a eventos para projetar soluções de processamento de dados escaláveis e confiáveis.
Idioma: Ingles - Avançado
Modelo de atuação: Remoto
Período de Alocação: Indeterminado