Logo for ASAAS

Site Reliability Engineer (SRE) Sênior - Observabilidade

Job description

JOB DESCRIPTION


Se você tem paixão por inovação e busca trabalhar em um ambiente ágil, colaborativo e desafiador, esta pode ser a sua oportunidade!


O time de Cloud do Asaas está buscando uma pessoa especializada em Observabilidade para garantir visibilidade completa e proativa da nossa plataforma. Você será fundamental na construção e evolução da nossa estratégia de observabilidade, trabalhando com os três pilares: métricas, logs e traces.


Como SRE Sênior com foco em Observabilidade, você será responsável por implementar e evoluir nossas soluções de monitoramento, garantindo que nossos times tenham as informações necessárias para tomar decisões rápidas e assertivas. Sua expertise em ferramentas como Prometheus, Grafana, OpenTelemetry e práticas de SRE será essencial para garantir a confiabilidade e performance da nossa plataforma.


Qualidade e observabilidade são fundamentais para atender mais de 230 mil clientes! Se você compartilha dessa visão, junte-se ao nosso time!


Se interessou pela oportunidade mas não reside em Joinville? Não tem problema, possibilitamos o trabalho remoto/home office.


RESPONSIBILITIES AND ASSIGNMENTS


  • Projetar, implementar e evoluir a plataforma de observabilidade da empresa, cobrindo os três pilares: métricas, logs e traces;
  • Implementar e manter stacks de observabilidade;
  • Definir e implementar padrões de instrumentação para aplicações e infraestrutura;
  • Criar dashboards estratégicos e operacionais que forneçam insights acionáveis para os times;
  • Definir, monitorar e gerenciar Indicadores de Nível de Serviço (SLIs) e Objetivos de Nível de Serviço (SLOs), gerenciando os orçamentos de erros (Error Budgets);
  • Implementar sistemas de alertas inteligentes, reduzindo ruído e focando em alertas acionáveis;
  • Colaborar com times de desenvolvimento para melhorar a observabilidade das aplicações, promovendo práticas de instrumentação;
  • Liderar a resposta a incidentes do ponto de vista de observabilidade, garantindo rápida identificação de root cause;
  • Realizar análises post-mortem detalhadas e propor melhorias baseadas em dados de observabilidade;
  • Promover e disseminar a cultura de observabilidade e melhores práticas de SRE na organização;
  • Planejar e executar estratégias de gerenciamento de capacidade baseadas em métricas;
  • Otimizar custos e performance das soluções de observabilidade em escala;
  • Automatizar processos de coleta, processamento e visualização de dados de observabilidade;
  • Documentar arquiteturas, runbooks e procedimentos relacionados a observabilidade.

REQUIREMENTS AND QUALIFICATIONS


  • Experiência sólida em implementação e gestão de plataformas de observabilidade em escala;
  • Conhecimento profundo em Prometheus (ou Datadog), incluindo PromQL, service discovery, federation e remote write;
  • Experiência avançada com Grafana para criação de dashboards, métricas e alertas, além de vivência com ferramentas de gestão de incidentes (PagerDuty, Incident.io e JSM);
  • Experiência com OpenTelemetry para instrumentação de aplicações;
  • Conhecimento em soluções de logging em escala (Loki, ELK Stack, CloudWatch Logs);
  • Conhecimento em distributed tracing (Jaeger, Tempo, X-Ray) e correlação entre métricas, logs e traces;
  • Experiência com Cloud Computing, especialmente AWS;
  • Experiência com containers (Docker) e orquestração (Kubernetes, ECS);
  • Experiência prática com Infraestrutura como Código (IaC), especialmente AWS CDK ou Terraform;
  • Conhecimento em práticas de SRE, incluindo SLIs, SLOs, Error Budgets e Toil Reduction;
  • Proficiência em linguagens de scripting (Python, Bash) e pelo menos uma linguagem de programação (Go, Java);
  • Capacidade de construção de ferramentas internas e CLIs para automação;
  • Entendimento de sistemas Linux e suas ferramentas de diagnóstico;
  • Experiência em gerenciamento de incidentes e processos de post-mortem.

ADDITIONAL INFORMATION


Diferenciais

  • Experiência em fintechs ou ambientes regulados;
  • Certificações AWS (DevOps Engineer, Solutions Architect);
  • Experiência com Grafana Mimir para métricas em escala;
  • Conhecimento em Thanos para alta disponibilidade de Prometheus;
  • Experiência com APM tools (Datadog, New Relic, Dynatrace);
  • Conhecimento em eBPF para observabilidade de baixo nível;
  • Conhecimento em Machine Learning aplicado a AIOps e detecção de anomalias;
  • Experiência com Chaos Engineering e testes de resiliência;
  • Conhecimento aprofundado em redes e protocolos (TCP/IP, DNS, HTTP/S);
  • Proficiência com Git, GitHub e GitFlow;
  • Vivência prática com metodologias ágeis (Scrum, Kanban);
  • Experiência com bancos de dados relacionais (PostgreSQL, MySQL) e NoSQL (MongoDB, DynamoDB, Redis).


Modelo de trabalho:

  • Carga horária flexível de 8h por dia (segunda a sexta);
  • Contratação CLT.

NÓS QUEREMOS MUDAR O MUNDO E COMEÇAMOS POR AQUI! VOCÊ VEM COM A GENTE?


Somos uma Fintech, Instituição de Pagamento credenciada pelo Banco Central do Brasil e temos como propósito maximizar a produtividade das empresas através da tecnologia. Oferecemos uma solução completa para gestão de cobranças, pagamentos, antecipações de recebíveis e atendemos mais de 200 mil clientes divididos entre profissionais autônomos, microempreendedores individuais (MEI) e grandes empresas.


Nosso sonho começou em 2010, em Joinville/SC e acreditamos que o céu não é o limite para o nosso crescimento. Não é à toa que atualmente nosso time está em vários cantos do Brasil! Mais de 1.000 pessoas sonham junto com o Asaas, de forma colaborativa, inovadora, eficiente, com autonomia e liberdade para voar alto.


Voos altos exigem recursos para viver e trabalhar melhor, além de liberdade para administrá-los. Por isso, acolhemos e cuidamos do nosso time oferecendo benefícios que apoiam seu crescimento pessoal e profissional:


Para saúde e bem-estar: temos assistência médica e odontológica sem coparticipação, seguro de vida, auxílio para compra de medicamentos e para realizar atividades físicas. Além disso, a Neon é nossa parceira para cuidar da saúde financeira do time e a Zenklub para a saúde física e mental (oferecemos 4 sessões mensais de terapia ou nutricionista gratuitas). Na sede, também temos quick massage. 


Para alimentação e família: nosso benefício alimentação é flexível, por meio de um cartão de crédito, bandeira Visa. O saldo pode ser usado como cada um desejar. Na sede, temos free food e, para as famílias, oferecemos auxílio creche, programa de apoio parental e licença maternidade e paternidade estendida.


Para educação e crescimento: além de um ambiente de desafios e muito desenvolvimento, temos uma plataforma de treinamentos in company e disponibilizamos auxílio educação que subsidia 70% de mensalidades de graduações e idiomas, bem como a compra de cursos e livros, para que nosso time nunca pare de aprender. 


Para o trabalho remoto de qualidade: oferecemos auxílio Home Office, equipamentos de trabalho, auxílio mobília e temos parceria com a WOBA, para os nossos colaboradores usarem coworkings em todo o Brasil quando desejarem. Conheça nossa sede, em Joinville/SC, nesse tour virtual!


Extras, porque o Dream Team merece: temos Day Off no mês do aniversário, auxílio Happy Hour, bonificação por indicação de novos colaboradores, bonificação baseada em metas anuais, plano de Stock Options e um ambiente leve, no dress code!


Site Reliability Engineer (SRE) Related jobs

Other jobs at ASAAS

We help you get seen. Not ignored.

We help you get seen faster — by the right people.

🚀

Auto-Apply

We apply for you — automatically and instantly.

Save time, skip forms, and stay on top of every opportunity. Because you can't get seen if you're not in the race.

AI Match Feedback

Know your real match before you apply.

Get a detailed AI assessment of your profile against each job posting. Because getting seen starts with passing the filters.

Upgrade to Premium. Apply smarter and get noticed.

Upgrade to Premium

Join thousands of professionals who got noticed and hired faster.