Match score not available

97 - Site Reliability Engineer (SRE) Sênior

Remote: 
Full Remote
Contract: 
Work from: 

Offer summary

Qualifications:

Bachelor's degree in Computer Science, Computer Engineering, or related fields., Experience as an SRE, DevOps, or Platform Engineer., Deep knowledge of Kubernetes and observability tools., Strong troubleshooting skills and interest in automation and infrastructure as code..

Key responsabilities:

  • Enhance and manage monitoring tools like Grafana, Prometheus, and OpenTelemetry.
  • Improve Istio implementation for traffic management and security metrics.
  • Manage workloads in EKS, focusing on troubleshooting and scalability.
  • Optimize CI/CD pipelines using GitHub Actions, CodePipeline, and Jenkins.

Seidor Brasil logo
Seidor Brasil https://www.seidorbrasil.com.br
1001 - 5000 Employees
See all jobs

Job description

Início: Assim que aprovado.

Prazo: Indeterminado, fazer parte do time da consultoria.

Objetivo Da Posição

Buscamos um Site Reliability Engineer (SRE) para reforçar a confiabilidade da nossa plataforma, atuando com observabilidade, automação e boas práticas de segurança. O profissional será responsável por garantir que nossas aplicações tenham um monitoramento eficiente, disponibilidade consistente e processos robustos para recuperação e mitigação de incidentes.

  • Formação: Graduação completa ou em andamento em Ciência da Computação, Engenharia da Computação ou áreas relacionadas.
  • Experiência como SRE, DevOps ou Engenheiro de Plataforma
  • Conhecimento aprofundado em Kubernetes e observabilidade
  • Capacidade de troubleshooting e otimização de performance
  • Interesse em automação e infraestrutura como código
  • Boa comunicação e habilidade para trabalhar em equipe

Experiência Ou Conhecimento Nas Seguintes Tecnologias

Cloud & Orquestração

  • AWS (ECS, Elastic Beanstalk, EKS)
  • Kubernetes (EKS)
  • Istio (mutualTLS, observabilidade de tráfego, roteamento)

Observabilidade & Monitoramento

  • Grafana, Prometheus, Loki
  • OpenTelemetry (Library, Agent, Sidecar)
  • Grafana Tempo e Kiali

Infraestrutura & Automação

  • Terraform (com migração para OpenTofu)
  • Docker e containerização
  • CI/CD com GitHub Actions, CodePipeline, Jenkins

Segurança e Performance

  • Segurança em ambientes Kubernetes e AWS
  • Implementação e monitoramento de tráfego seguro
  • Estratégias de mitigação de falhas e alta disponibilidade

Responsabilidades

  • Monitoramento & Observabilidade: Aprimorar e gerenciar ferramentas de monitoramento (Grafana, Prometheus, Loki, OpenTelemetry, Grafana Tempo, Kiali).
  • Gestão de Tráfego & Segurança: Melhorar a implementação e observabilidade do Istio, incluindo mutualTLS, controle de tráfego e métricas de segurança.
  • Cloud & Kubernetes: Gerenciar workloads em EKS, incluindo troubleshooting, escalabilidade e melhorias de deploy.
  • Infraestrutura como Código (IaC): Manutenção e otimização do provisionamento de infraestrutura utilizando Terraform e suporte à migração para OpenTofu.
  • CI/CD & Automação: Aprimorar e manter pipelines de GitHub Actions, CodePipeline e Jenkins para garantir entregas ágeis e seguras.
  • Prevenção & Resolução de Incidentes: Implementar soluções para reduzir tempo de recuperação (MTTR) e melhorar a resposta a falhas.
  • Melhoria Contínua: Propor otimizações contínuas para performance, segurança e custos na nuvem AWS.

Required profile

Experience

Spoken language(s):
Portuguese
Check out the description to know which languages are mandatory.

Other Skills

  • Teamwork
  • Communication

Site Reliability Engineer (SRE) Related jobs