Offer summary

Qualifications:

Bachelor's degree in Computer Science, Computer Engineering, or related fields., Experience as an SRE, DevOps, or Platform Engineer., Deep knowledge of Kubernetes and observability tools., Strong troubleshooting skills and interest in automation and infrastructure as code..

Key responsabilities:

Enhance and manage monitoring tools like Grafana, Prometheus, and OpenTelemetry.

Improve Istio implementation for traffic management and security metrics.

Manage workloads in EKS, focusing on troubleshooting and scalability.

Optimize CI/CD pipelines using GitHub Actions, CodePipeline, and Jenkins.

Job description

Início: Assim que aprovado.

Prazo: Indeterminado, fazer parte do time da consultoria.

Objetivo Da Posição

Buscamos um Site Reliability Engineer (SRE) para reforçar a confiabilidade da nossa plataforma, atuando com observabilidade, automação e boas práticas de segurança. O profissional será responsável por garantir que nossas aplicações tenham um monitoramento eficiente, disponibilidade consistente e processos robustos para recuperação e mitigação de incidentes.

Formação: Graduação completa ou em andamento em Ciência da Computação, Engenharia da Computação ou áreas relacionadas.
Experiência como SRE, DevOps ou Engenheiro de Plataforma
Conhecimento aprofundado em Kubernetes e observabilidade
Capacidade de troubleshooting e otimização de performance
Interesse em automação e infraestrutura como código
Boa comunicação e habilidade para trabalhar em equipe

Experiência Ou Conhecimento Nas Seguintes Tecnologias

Cloud & Orquestração

AWS (ECS, Elastic Beanstalk, EKS)
Kubernetes (EKS)
Istio (mutualTLS, observabilidade de tráfego, roteamento)

Observabilidade & Monitoramento

Grafana, Prometheus, Loki
OpenTelemetry (Library, Agent, Sidecar)
Grafana Tempo e Kiali

Infraestrutura & Automação

Terraform (com migração para OpenTofu)
Docker e containerização
CI/CD com GitHub Actions, CodePipeline, Jenkins

Segurança e Performance

Segurança em ambientes Kubernetes e AWS
Implementação e monitoramento de tráfego seguro
Estratégias de mitigação de falhas e alta disponibilidade

Responsabilidades

Monitoramento & Observabilidade: Aprimorar e gerenciar ferramentas de monitoramento (Grafana, Prometheus, Loki, OpenTelemetry, Grafana Tempo, Kiali).
Gestão de Tráfego & Segurança: Melhorar a implementação e observabilidade do Istio, incluindo mutualTLS, controle de tráfego e métricas de segurança.
Cloud & Kubernetes: Gerenciar workloads em EKS, incluindo troubleshooting, escalabilidade e melhorias de deploy.
Infraestrutura como Código (IaC): Manutenção e otimização do provisionamento de infraestrutura utilizando Terraform e suporte à migração para OpenTofu.
CI/CD & Automação: Aprimorar e manter pipelines de GitHub Actions, CodePipeline e Jenkins para garantir entregas ágeis e seguras.
Prevenção & Resolução de Incidentes: Implementar soluções para reduzir tempo de recuperação (MTTR) e melhorar a resposta a falhas.
Melhoria Contínua: Propor otimizações contínuas para performance, segurança e custos na nuvem AWS.

Required profile