Logo for ASAAS

Site Reliability Engineer (SRE) Lead - Observabilidade

Job description

JOB DESCRIPTION


Se você tem paixão por inovação e busca trabalhar em um ambiente ágil, colaborativo e desafiador, esta pode ser a sua oportunidade!


O time de Cloud do Asaas está buscando uma pessoa para liderar o time de Site Reliability Engineering (SRE), sendo responsável por construir e evoluir a cultura de confiabilidade da nossa plataforma. Você será peça-chave na estruturação deste time, liderando especialistas em observabilidade, gerenciamento de incidentes e práticas de SRE.


Como SRE Lead, você combinará excelência técnica com liderança de pessoas, sendo responsável pela estratégia de observabilidade, definição de SLIs/SLOs, gestão de incidentes e redução de toil. Sua atuação garantirá que nossos times tenham visibilidade completa da plataforma e possam tomar decisões rápidas e assertivas.


Qualidade e confiabilidade são fundamentais para atender mais de 230 mil clientes! Se você compartilha dessa visão e quer construir um time de SRE de referência, junte-se ao nosso time!


Reside fora de Joinville? Sem problemas! Esta oportunidade está aberta para trabalho remoto/home office.


RESPONSIBILITIES AND ASSIGNMENTS


Liderança e Gestão de Pessoas

  • Liderar, desenvolver e reter o time de SRE, promovendo alta performance, colaboração e aprendizado contínuo;
  • Conduzir contratação, onboarding, feedbacks, PDIs e avaliações de desempenho;
  • Definir estratégia e roadmap do time de SRE, alinhado aos objetivos de Cloud e do negócio;
  • Disseminar a cultura de SRE e observabilidade, atuando como referência para Engenharia;
  • Gerenciar prioridades, capacidade e trade-offs do time, garantindo entregas com qualidade;
  • Alinhar iniciativas com lideranças de Cloud Engineering, Platform Engineering e Cloud Security;
  • Reportar métricas, riscos e evolução do time para a liderança de Cloud.


Observabilidade e Confiabilidade

  • Definir e liderar a estratégia de observabilidade (métricas, logs e traces);
  • Evoluir a plataforma de observabilidade (Prometheus, Grafana, OpenTelemetry, Loki, Tempo);
  • Estabelecer e governar SLIs, SLOs e Error Budgets para serviços críticos;
  • Definir padrões de instrumentação para aplicações e infraestrutura, impulsionando adoção pelos times;
  • Implementar estratégia de alertas acionáveis, reduzindo ruído;
  • Planejar e executar gestão de capacidade baseada em métricas;
  • Otimizar custos e performance das soluções de observabilidade em escala.


Gestão de Incidentes e Melhoria Contínua

  • Estruturar e liderar o processo de gestão de incidentes (escalação, war room e comunicação);
  • Garantir post-mortems blameless e acompanhar ações corretivas;
  • Identificar recorrências e propor melhorias sistêmicas baseadas em dados;
  • Liderar redução de toil com automações operacionais;
  • Manter documentação operacional (runbooks, procedimentos e arquiteturas) atualizada e acessível.

REQUIREMENTS AND QUALIFICATIONS


  • Experiência em liderança de times técnicos (SRE, DevOps, Cloud Engineering);
  • Experiência em práticas de SRE, incluindo SLIs, SLOs, Error Budgets e Toil Reduction;
  • Experiência com APM tools (Datadog, New Relic, Dynatrace);
  • Conhecimento em observabilidade e telemetria (métricas, logs, traces), com Prometheus e OpenTelemetry (Grafana);
  • Experiência prática com Infraestrutura como Código (AWS CDK, Terraform);
  • Proficiência em linguagens de scripting (Python, Bash) e pelo menos uma linguagem de programação (Go, Java);
  • Experiência com soluções de logging e tracing em escala (Loki, Tempo, Jaeger, ELK Stack);
  • Experiência com Cloud, preferencialmente AWS;
  • Experiência com containers (Docker) e orquestração (Kubernetes, ECS);
  • Experiência em gerenciamento de incidentes e post-mortem;
  • Entendimento de sistemas Linux e suas ferramentas de diagnóstico;
  • Inglês técnico (leitura e escrita).

ADDITIONAL INFORMATION


Diferenciais

  • Certificações AWS (DevOps Engineer, Solutions Architect);
  • Experiência em fintechs ou ambientes regulados (PCI-DSS, LGPD, SOC 2);
  • Experiência com FinOps e otimização de custos em cloud;
  • Experiência com Grafana Mimir ou Thanos para métricas em escala;
  • Experiência com Chaos Engineering e testes de resiliência;
  • Conhecimento em Machine Learning aplicado a AIOps e detecção de anomalias;
  • Conhecimento aprofundado em redes e protocolos (TCP/IP, DNS, HTTP/S);
  • Proficiência com Git, GitHub e GitFlow;
  • Vivência prática com metodologias ágeis (Scrum, Kanban);
  • Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB, Redis).


Modelo de Trabalho

  • Carga horária flexível de 8h por dia (segunda a sexta);
  • Contratação CLT.

NÓS QUEREMOS MUDAR O MUNDO E COMEÇAMOS POR AQUI! VOCÊ VEM COM A GENTE?


Somos uma Fintech, Instituição de Pagamento credenciada pelo Banco Central do Brasil e temos como propósito maximizar a produtividade das empresas através da tecnologia. Oferecemos uma solução completa para gestão de cobranças, pagamentos, antecipações de recebíveis e atendemos mais de 200 mil clientes divididos entre profissionais autônomos, microempreendedores individuais (MEI) e grandes empresas.


Nosso sonho começou em 2010, em Joinville/SC e acreditamos que o céu não é o limite para o nosso crescimento. Não é à toa que atualmente nosso time está em vários cantos do Brasil! Mais de 1.000 pessoas sonham junto com o Asaas, de forma colaborativa, inovadora, eficiente, com autonomia e liberdade para voar alto.


Voos altos exigem recursos para viver e trabalhar melhor, além de liberdade para administrá-los. Por isso, acolhemos e cuidamos do nosso time oferecendo benefícios que apoiam seu crescimento pessoal e profissional:


Para saúde e bem-estar: temos assistência médica e odontológica sem coparticipação, seguro de vida, auxílio para compra de medicamentos e para realizar atividades físicas. Além disso, a Neon é nossa parceira para cuidar da saúde financeira do time e a Zenklub para a saúde física e mental (oferecemos 4 sessões mensais de terapia ou nutricionista gratuitas). Na sede, também temos quick massage. 


Para alimentação e família: nosso benefício alimentação é flexível, por meio de um cartão de crédito, bandeira Visa. O saldo pode ser usado como cada um desejar. Na sede, temos free food e, para as famílias, oferecemos auxílio creche, programa de apoio parental e licença maternidade e paternidade estendida.


Para educação e crescimento: além de um ambiente de desafios e muito desenvolvimento, temos uma plataforma de treinamentos in company e disponibilizamos auxílio educação que subsidia 70% de mensalidades de graduações e idiomas, bem como a compra de cursos e livros, para que nosso time nunca pare de aprender. 


Para o trabalho remoto de qualidade: oferecemos auxílio Home Office, equipamentos de trabalho, auxílio mobília e temos parceria com a WOBA, para os nossos colaboradores usarem coworkings em todo o Brasil quando desejarem. Conheça nossa sede, em Joinville/SC, nesse tour virtual!


Extras, porque o Dream Team merece: temos Day Off no mês do aniversário, auxílio Happy Hour, bonificação por indicação de novos colaboradores, bonificação baseada em metas anuais, plano de Stock Options e um ambiente leve, no dress code!


Site Reliability Engineer (SRE) Related jobs

Other jobs at ASAAS

We help you get seen. Not ignored.

We help you get seen faster — by the right people.

🚀

Auto-Apply

We apply for you — automatically and instantly.

Save time, skip forms, and stay on top of every opportunity. Because you can't get seen if you're not in the race.

AI Match Feedback

Know your real match before you apply.

Get a detailed AI assessment of your profile against each job posting. Because getting seen starts with passing the filters.

Upgrade to Premium. Apply smarter and get noticed.

Upgrade to Premium

Join thousands of professionals who got noticed and hired faster.