Key Facts

Remote From:

Full time

Portuguese

Hard Skills

SQL (Programming Language) Python (Programming Language) Data Architecture Apache Spark Role-Based Access Control (RBAC) Databricks Fabric Operating System AWS Glue Dimensional Modeling Data Validation +33 more

Other Skills

•
Communication
•
Teamwork
•
Detail Oriented
•
Problem Solving

Roles & Responsibilities

Proven experience developing and implementing data pipelines at production scale.
Strong proficiency in Python, PySpark, and advanced SQL (window functions, CTEs, performance optimization).
Hands-on experience with data migration projects.
Experience with at least one major cloud platform (AWS, Azure, or GCP).

Requirements:

Design and build scalable ETL/ELT data pipelines using dbt, PySpark, and other modern transformation tools.
Develop and maintain data ingestion pipelines for GenAI workloads, including document processing, chunking, and embeddings workflows.
Orchestrate workflows using Airflow, Dagster, or cloud-native orchestration tools.
Plan and execute data migration projects, including source data analysis, schema mapping, validation, and rollback strategies.

Runtalent

About Runtalent

Há quase duas décadas, a Runtalent se consolidou como uma referência no mercado de tecnologia, proporcionando soluções inovadoras em TI para empresas B2B que buscam se manter competitivas na corrida pela transformação digital de seus negócios. Oferecemos uma variedade de serviços, como alocação de profissionais, squads ágeis e gestão de times e serviços. Além disso, dispomos de um banco de talentos com mais de 30 mil profissionais especializados em múltiplas áreas, aptos a atuar em projetos de TI por tempo determinado ou indeterminado, agregando soluções para diversos cenários de negócios. Para os nossos colaboradores, conhecidos como Runners, oferecemos suporte e investimento em qualificações técnicas e programas de realocação, para que possam desempenhar suas atividades da melhor forma possível. Venha fazer parte da Runtalent e transforme seu negócio com a ajuda de nossos serviços especializados em tecnologia.

Company type: SME

Founded: 2018

Company size: 501 - 1000

Website LinkedIn See all jobs →

Job description

Este é um cargo remoto.

Oportunidade: Data Engineer (Engenheiro de Dados) - Pleno

Requisitos Obrigatórios:

Experiência comprovada no desenvolvimento e implementação de pipelines de dados em escala de produção.

Forte domínio de Python, PySpark e SQL avançado (window functions, CTEs, otimização de performance).

Experiência prática em projetos de migração de dados.

Experiência com pelo menos uma grande plataforma de cloud (AWS, Azure ou GCP).

Experiência com Databricks, serviços de dados da AWS ou Microsoft Fabric para desenvolvimento de pipelines.

Experiência com data warehouses modernos, como Snowflake, BigQuery, Redshift ou Databricks.

Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB).

Experiência com ferramentas de migração de dados para ambientes on-premises ou cloud (ex.: SSIS).

Experiência prática com Apache Spark / PySpark e agendamento de workflows (AWS Glue ou similar).

Familiaridade com Infrastructure as Code (Terraform, Docker).

Experiência com pipelines de CI/CD (preferencialmente GitHub Actions).

Forte conhecimento em modelagem de dados (Star Schema, Data Vault, Modelagem Dimensional).

Diferenciais:

Experiência em estratégia e planejamento de migração de dados.

Experiência na implementação de soluções de Change Data Capture (CDC).

Conhecimento em tecnologias de streaming, como Kafka ou Kinesis.

Experiência com desenvolvimento de pipelines RAG e aplicações baseadas em GenAI.

Conhecimento de arquiteturas orientadas a eventos e integração com microservices.

Principais Responsabilidades:

Projetar e construir pipelines de dados ETL/ELT escaláveis utilizando dbt, PySpark e outras ferramentas modernas de transformação.

Desenvolver e manter pipelines de ingestão de dados para workloads de GenAI, incluindo processamento de documentos, chunking e workflows de embeddings.

Orquestrar workflows utilizando Airflow, Dagster ou ferramentas nativas de orquestração em cloud.

Planejar e executar projetos de migração de dados, incluindo análise da fonte de dados, mapeamento de schema, validação e estratégias de rollback.

Implementar soluções de Change Data Capture (CDC) utilizando ferramentas padrão do mercado.

Construir e manter frameworks de qualidade de dados com testes automatizados e validações.

Garantir governança, segurança e conformidade dos dados, incluindo tratamento adequado de PII (dados pessoais identificáveis) e aplicação de políticas RBAC (controle de acesso baseado em funções).

Colaborar com Engenheiros de IA e Desenvolvedores Full Stack para dar suporte a pipelines RAG e aplicações baseadas em GenAI.

Aplicar conceitos de arquitetura orientada a eventos para projetar soluções de processamento de dados escaláveis e confiáveis.

Idioma: Ingles - Avançado
Modelo de atuação: Remoto
Período de Alocação: Indeterminado