Logo for Runtalent

10614 - Especialista Observability/ Monitoramento

Key Facts

Remote From: 
Full time
Portuguese

Other Skills

  • Knowledge Transfer
  • Incident Reporting
  • Troubleshooting (Problem Solving)
  • Resilience
  • Communication
  • Teamwork
  • Proactivity
  • Analytical Thinking

Roles & Responsibilities

  • Solid experience with Datadog or Elasticsearch, including platform implementation, administration, support, and governance (agents/collectors, retention policies, performance tuning, licensing, tagging, and organization).
  • Proficiency in OpenTelemetry and instrumentation of applications (automatic and manual) for distributed telemetry.
  • Strong ability to analyze and correlate metrics, logs and traces; advanced troubleshooting, incident investigation, profiling and root cause analysis in distributed systems.
  • Experience building dashboards, alerts, queries, notebooks and workflows; integrating via APIs, webhooks and native connectors (ITSM/CMDB); familiar with cloud, Kubernetes/EKS and containerized workloads monitoring.

Requirements:

  • Define and evolve the observability strategy with a focus on Datadog or Elasticsearch; act as internal technical reference, promote best practices and governance; evangelize and train teams in observability, APM and telemetry.
  • Administer and optimize the observability platform: configure agents, collectors, pipelines and integrations; manage data retention, consumption, licensing, performance and operational costs; establish tagging and naming conventions; ensure scalability and availability.
  • Implement instrumentation and telemetry: automatic/manual instrumentation with OpenTelemetry, SDKs and collectors; collect, enrich and correlate metrics/logs/traces; map dependencies and support teams in product/service-oriented telemetry adoption.
  • Analyze performance and troubleshoot: perform deep performance analyses, distributed tracing, profiling, dependency mapping and incident RCA; assist in diagnosing complex failures and bottlenecks; drive reliability improvements.

Job description

Este é um cargo remoto.

Oportunidade: Especialista Observability/ Monitoramento


Requisitos:

Experiência sólida com Datadog ou Elasticsearch, atuando em implementação, administração, sustentação e evolução da plataforma.
Domínio em configuração e operação da ferramenta, incluindo:
Gestão de agentes e coletores;
Políticas de retenção;
Tuning de performance;
Consumo/licenciamento;
Organização e governança da plataforma.
Experiência com instrumentação de aplicações, tanto automática quanto manual.
Conhecimento prático em OpenTelemetry, telemetria distribuída e observabilidade moderna.
Capacidade de análise e correlação de métricas, logs e traces.
Vivência com troubleshooting avançado, investigação de incidentes, profiling, tracing e análise de causa raiz.
Experiência na construção de dashboards, alertas, consultas, notebooks e workflows dentro da ferramenta.
Conhecimento em integrações via APIs, webhooks e conectores nativos, incluindo cenários com ITSM/CMDB e ferramentas de monitoração.
Experiência com ambientes cloud e aplicações distribuídas.
Vivência com Kubernetes/EKS e monitoramento/instrumentação de workloads em containers.
Conhecimento de práticas ágeis, como Scrum e Kanban.
Boa comunicação para interação com times multidisciplinares e apresentação de insights para diferentes níveis da organização.
Perfil analítico, proativo e orientado à melhoria contínua.

 

Desejáveis:

Ter atuado em ambientes com Kubernetes, de grande porte e missão crítica.
Domínio avançado na ferramenta Datadog ou Elasticsearch.
Experiência em ambientes com alta volumetria de dados, múltiplos serviços e arquitetura distribuída.
Vivência em operações 24x7 e cenários com requisitos elevados de disponibilidade e resiliência.
Experiência no suporte a aplicações críticas para o negócio, preferencialmente em segmentos com alta exigência operacional, como varejo, financeiro, logística ou e-commerce.
Conhecimento em observabilidade aplicada a microsserviços, APIs, mensageria e ambientes híbridos/cloud.
Vivência com integração entre observabilidade e processos de incident management/problem management.
Experiência com automação de observabilidade como código.
Capacidade de atuar como referência técnica e multiplicador de conhecimento.

 

Responsabilidades principais:
1. Estratégia e Governança de Observabilidade
Definir, desenhar e evoluir a estratégia de observabilidade com foco em Datadog ou Elasticsearch.
Atuar como referência técnica interna da plataforma, promovendo boas práticas, padrões e governança.
Apoiar tecnicamente times de infraestrutura, desenvolvimento, arquitetura e operações no uso da ferramenta.
Conduzir ações de evangelização, treinamentos e disseminação de conhecimento sobre observabilidade, APM e telemetria.

2. Administração e Otimização da Plataforma
Configurar, administrar e otimizar a plataforma de observabilidade, incluindo agentes, coletores, pipelines, políticas e integrações.
Gerenciar retenção de dados, consumo, licenciamento, performance e custo operacional da ferramenta.
Atuar na definição de padrões de tagging, naming convention, organização de serviços e ambientes.
Garantir escalabilidade, disponibilidade e bom desempenho da solução de observabilidade.

3. Instrumentação e Telemetria
Implementar instrumentação automática e manual em aplicações e serviços.
Trabalhar com OpenTelemetry, SDKs, auto-instrumentation, collectors e agentes nativos.
Coletar, enriquecer e correlacionar métricas, logs e traces.
Mapear dependências entre aplicações, serviços e componentes de infraestrutura.
Apoiar times técnicos na adoção de telemetria customizada e observabilidade orientada a produtos e serviços.

4. Análise de Performance e Troubleshooting
Realizar análises aprofundadas de performance e comportamento de aplicações, considerando latência, throughput, taxa de erro e disponibilidade.
Atuar com distributed tracing, profiling, dependency mapping e investigação de incidentes.
Executar root cause analysis (RCA) em ambientes distribuídos e de missão crítica.
Apoiar o diagnóstico de falhas complexas, gargalos de desempenho e degradação de serviços.

5. Dashboards, Alertas, Notebooks e Workflows
Criar e manter dashboards operacionais, executivos e analíticos com foco em indicadores técnicos e de negócio.
Construir monitores e alertas acionáveis, reduzindo ruído e falsos positivos.
Implementar detecção de anomalias, correlação de eventos e limiares dinâmicos.
Desenvolver notebooks, consultas e investigações guiadas para análise técnica e storytelling de incidentes.
Criar workflows e automações para resposta operacional, enriquecimento de eventos e integração com processos internos.

6. Integrações, Automação e Ecossistema
Integrar Datadog ou Elasticsearch com plataformas de CMDB, ITSM, ServiceNow, Zabbix, CI/CD, webhooks, APIs e ferramentas corporativas.
Automatizar provisionamento de monitores, dashboards, alertas, tagging, onboarding de serviços e integrações.
Apoiar a integração com pipelines DevOps, observabilidade em Kubernetes e ambientes cloud.
Atuar na evolução contínua do ecossistema de observabilidade corporativa.

7. Comunicação e Suporte à Decisão
Traduzir análises técnicas em recomendações claras para públicos técnicos, gerenciais e executivos.
Apoiar tomadas de decisão com base em dados de observabilidade, confiabilidade e experiência do usuário.
Contribuir para melhoria contínua dos processos de operação, sustentação e engenharia de confiabilidade.



Modelo de atuação: Remoto

Related jobs

Other jobs at Runtalent

We help you get seen. Not ignored.

We help you get seen faster — by the right people.

🚀

Auto-Apply

We apply for you — automatically and instantly.

Save time, skip forms, and stay on top of every opportunity. Because you can't get seen if you're not in the race.

AI Match Feedback

Know your real match before you apply.

Get a detailed AI assessment of your profile against each job posting. Because getting seen starts with passing the filters.

Upgrade to Premium. Apply smarter and get noticed.

Upgrade to Premium

Join thousands of professionals who got noticed and hired faster.