Logo for Darede - à nuvem

Site Reliability Engineering Sênior

Key Facts

Remote From: 
Full time
Senior (5-10 years)
Portuguese

Other Skills

  • Accountability
  • Proactivity
  • Analytical Thinking
  • Willingness To Learn

Roles & Responsibilities

  • Senior SRE/DevOps experience in high-scale, mission-critical environments
  • Deep AWS expertise (EC2, RDS, S3, IAM, EKS, Amplify)
  • Observability and telemetry proficiency with Datadog (logs, APM, traces and metrics)
  • Containers and Infrastructure as Code (Docker, Kubernetes/EKS, Terraform)

Requirements:

  • Lead incident response in War Rooms, coordinating technical resolution and stakeholder communication
  • Design and evolve telemetry in Datadog to reduce MTTD and cognitive load
  • Ensure resilience and scalability of front-end applications and critical APIs hosted with AWS Amplify
  • Define and monitor SLIs/SLOs/SLAs, manage the Error Budget to balance delivery speed with stability

Job description

JOB DESCRIPTION


A Darede tem o objetivo de continuar revolucionando os negócios em Cloud no Brasil e nos tornarmos a mais relevante consultoria do segmento, afinal, THE FUTURE IS CLOUD!


Buscamos um SRE Sênior apaixonado por estabilidade, performance e automação para integrar uma Squad estratégica de Engenharia de Resiliência. O desafio principal é atuar de forma proativa em um ecossistema complexo e de alta criticidade, movendo a operação de um modelo reativo para uma cultura de confiabilidade. Você será responsável por projetar e implementar soluções que previnam falhas, garantindo que sistemas que sustentam a receita do negócio operem com máxima disponibilidade.


Se você tem curiosidade e vontade de aprender novas ferramentas, plataformas e tecnologias, é Data Driven e HandsOn, é uma pessoa sempre antenada nas novidades do Mundo Cloud, essa vaga é para você!


Candidate-se, queremos te conhecer!


RESPONSIBILITIES AND ASSIGNMENTS


Liderança em Incidentes:

  • Atuar como Líder de Resposta a Incidentes em War Rooms, coordenando a resolução técnica e a comunicação com stakeholders.

Engenharia de Observabilidade:

  • Projetar e evoluir a telemetria no Datadog (Logs, APM, Traces e métricas de negócio) para reduzir o MTTD e o esforço cognitivo do time.

Gestão de Workloads em AWS Amplify:

  • Garantir a resiliência e a escalabilidade de aplicações front-end e APIs críticas hospedadas.

Governança de SRE:

  • Definir e monitorar SLIs, SLOs e SLAs, gerindo o Error Budget para equilibrar a velocidade de entrega com a estabilidade.

Automação de Mitigação:

  • Desenvolver ferramentas e scripts de auto-healing (rollback automático, restart controlado, isolamento de componentes).

Análise de Causa Raiz:

  • Conduzir processos de Post-mortem blameless e garantir a implementação de melhorias estruturais para evitar reincidências.

Modernização de Sistemas:

  • Atuar junto aos times de desenvolvimento para implementar padrões de resiliência (Circuit Breakers, Bulkheads e Rate Limiting) tanto em arquiteturas modernas quanto em sistemas legados.

IA na Operação:

  • Implementar soluções de detecção de anomalias e resposta inteligente utilizando AIOps (Datadog Bits AI ou AWS DevOps Agent).

REQUIREMENTS AND QUALIFICATIONS


  • Senioridade comprovada em SRE ou DevOps: Experiência sólida em ambientes de alta escala e missão crítica.
  • Domínio Profundo de AWS: Experiência avançada em EC2, RDS, S3, IAM, EKS e Amplify.
  • Domínio de ferramentas de Observabilidade: Sólida experiência em monitoramento, logs e APM (preferencialmente utilizando Datadog).
  • Containers & Orquestração: Sólidos conhecimentos em Docker e Kubernetes (EKS/GKE).
  • Infraestrutura como Código (IaC): Domínio de Terraform.
  • Desenvolvimento/Scripts: Fluidez em Python, Go ou Shell Script para automação.
  • Gestão de Incidentes: Experiência real com plantões on-call e resolução de problemas em tempo real.


+Diferenciais (Desejáveis);

  • Perfil Analítico para Sistemas Legados: Experiência em troubleshooting de aplicações em .NET Framework e bancos de dados Oracle ou PostgreSQL.
  • Chaos Engineering: Experiência na execução de testes de estresse e resiliência controlados.
  • Certificações: AWS Certified DevOps Engineer - Professional ou Certificações oficiais Datadog.


+Competências Comportamentais;

  • Perfil de liderança técnica e resiliência sob pressão.
  • Excelente comunicação para interagir com áreas de negócio e tecnologia.
  • Protagonismo e senso de responsabilidade na resolução definitiva de problemas.

ADDITIONAL INFORMATION


BENEFÍCIOS

📚 Incentivos Educacionais (Parcerias com Instituições de Ensino)

🌴 Férias Remuneradas

🏋️TotalPass

🎂Birthday off

🏥 Assistência Médica

🦷 Assistência Odontológica

🤰 Licença Maternidade

👨‍👩‍👧‍👦 Licença Paternidade

🌟 Reembolso em Certificações AWS


THE FUTURE IS CLOUD


💚 Quem somos


Somos a Darede: uma empresa de tecnologia com alma inovadora, movida por pessoas e guiada pelo propósito de transformar negócios, carreiras e histórias por meio da tecnologia.


Há mais de uma década, crescemos de forma consistente, sustentável e coletiva. Nosso objetivo é claro: estar entre as maiores e melhores empresas de TI do Brasil, entregando soluções de alto impacto para clientes, parceiros, colaboradores e para a comunidade.


Mais do que resultados, construímos jornadas. Acreditamos no alinhamento entre objetivos de vida e de carreira — e é isso que nos permite ir mais longe, juntos.


🏆 Reconhecimento que é resultado de trabalho coletivo


Nos últimos anos, nosso crescimento foi reconhecido por importantes prêmios, selos e parcerias, que refletem a força do nosso time:


  • Parceira Premier AWS – o mais alto nível de parceria com a AWS
  • AWS Consulting Partner of the Year – LATAM 2024
  • AWS SMB Star Award – LATAM 2025
  • AWS Innovation Partner of the Year – LATAM 2025
  • AWS Social Impact Partner of the Year – LATAM 2025
  • AWS Ecosystem Partners Brazil (reconhecimento ISG)
  • Most Promising Cloud Solutions Provider in Latin America 2024
  • AWS ID&E Employer Champion (diversidade, equidade e inclusão)
  • +400 certificações AWS
  • +150 acreditações técnicas
  • +16 competências AWS reconhecidas oficialmente
  • Mais de 2.000 clientes satisfeitos
  • +600 projetos (launches) entregues com sucesso
  • 4x GPTW e reconhecimento como uma das melhores empresas para trabalhar em diversidade étnico-racial


Esses resultados são fruto da nossa excelência técnica, da força do trabalho coletivo e do nosso compromisso contínuo com pessoas, inovação e impacto positivo.


Tudo isso porque acreditamos que excelência técnica e cuidado com pessoas caminham juntos.


🌱 Pessoas no centro, dentro e fora da empresa


Acreditar em potencial humano faz parte do nosso DNA. Por isso, apoiamos ativamente iniciativas como Escola da Nuvem, Cloudelas e Transformar Tech, contribuindo para a formação de talentos e para um ecossistema de tecnologia mais diverso e inclusivo.


🚀 Por que trabalhar na Darede?


Se você busca um lugar para:


  • Aplicar e expandir seu conhecimento técnico
  • Aprender continuamente e evoluir na carreira
  • Trabalhar com tecnologia de ponta e grandes desafios
  • Impactar positivamente a sociedade
  • Desenvolver pessoas e transformar contextos
  • Fazer parte de um time que joga junto


👉 A Darede é o seu lugar.


Aqui, você não constrói apenas soluções em cloud.

Você constrói futuro — o seu e o de muitas outras pessoas.


Instagram

Linkedin

Site

Glassdoor

Youtube

Blog

Facebook

Nossos Cases

Conheça o CAAS


Site Reliability Engineer (SRE) Related jobs

Other jobs at Darede - à nuvem

We help you get seen. Not ignored.

We help you get seen faster — by the right people.

🚀

Auto-Apply

We apply for you — automatically and instantly.

Save time, skip forms, and stay on top of every opportunity. Because you can't get seen if you're not in the race.

AI Match Feedback

Know your real match before you apply.

Get a detailed AI assessment of your profile against each job posting. Because getting seen starts with passing the filters.

Upgrade to Premium. Apply smarter and get noticed.

Upgrade to Premium

Join thousands of professionals who got noticed and hired faster.