Key Facts

Remote From:

Full time

Portuguese

Hard Skills

Datadog Elasticsearch Telemetry Kubernetes Observability Root Cause Analysis PkMS Application Programming Interface (API) Naming Conventions Problem Management +43 more

Other Skills

•
Knowledge Transfer
•
Incident Reporting
•
Troubleshooting (Problem Solving)
•
Resilience
•
Communication
•
Teamwork
•
Proactivity
•
Analytical Thinking

Roles & Responsibilities

Solid experience with Datadog or Elasticsearch, including platform implementation, administration, support, and governance (agents/collectors, retention policies, performance tuning, licensing, tagging, and organization).
Proficiency in OpenTelemetry and instrumentation of applications (automatic and manual) for distributed telemetry.
Strong ability to analyze and correlate metrics, logs and traces; advanced troubleshooting, incident investigation, profiling and root cause analysis in distributed systems.
Experience building dashboards, alerts, queries, notebooks and workflows; integrating via APIs, webhooks and native connectors (ITSM/CMDB); familiar with cloud, Kubernetes/EKS and containerized workloads monitoring.

Requirements:

Define and evolve the observability strategy with a focus on Datadog or Elasticsearch; act as internal technical reference, promote best practices and governance; evangelize and train teams in observability, APM and telemetry.
Administer and optimize the observability platform: configure agents, collectors, pipelines and integrations; manage data retention, consumption, licensing, performance and operational costs; establish tagging and naming conventions; ensure scalability and availability.
Implement instrumentation and telemetry: automatic/manual instrumentation with OpenTelemetry, SDKs and collectors; collect, enrich and correlate metrics/logs/traces; map dependencies and support teams in product/service-oriented telemetry adoption.
Analyze performance and troubleshoot: perform deep performance analyses, distributed tracing, profiling, dependency mapping and incident RCA; assist in diagnosing complex failures and bottlenecks; drive reliability improvements.

Runtalent

About Runtalent

Há quase duas décadas, a Runtalent se consolidou como uma referência no mercado de tecnologia, proporcionando soluções inovadoras em TI para empresas B2B que buscam se manter competitivas na corrida pela transformação digital de seus negócios. Oferecemos uma variedade de serviços, como alocação de profissionais, squads ágeis e gestão de times e serviços. Além disso, dispomos de um banco de talentos com mais de 30 mil profissionais especializados em múltiplas áreas, aptos a atuar em projetos de TI por tempo determinado ou indeterminado, agregando soluções para diversos cenários de negócios. Para os nossos colaboradores, conhecidos como Runners, oferecemos suporte e investimento em qualificações técnicas e programas de realocação, para que possam desempenhar suas atividades da melhor forma possível. Venha fazer parte da Runtalent e transforme seu negócio com a ajuda de nossos serviços especializados em tecnologia.

Company type: SME

Founded: 2018

Company size: 501 - 1000

Website LinkedIn See all jobs →

Job description

Este é um cargo remoto.

Oportunidade: Especialista Observability/ Monitoramento

Requisitos:

Experiência sólida com Datadog ou Elasticsearch, atuando em implementação, administração, sustentação e evolução da plataforma.
Domínio em configuração e operação da ferramenta, incluindo:
Gestão de agentes e coletores;
Políticas de retenção;
Tuning de performance;
Consumo/licenciamento;
Organização e governança da plataforma.
Experiência com instrumentação de aplicações, tanto automática quanto manual.
Conhecimento prático em OpenTelemetry, telemetria distribuída e observabilidade moderna.
Capacidade de análise e correlação de métricas, logs e traces.
Vivência com troubleshooting avançado, investigação de incidentes, profiling, tracing e análise de causa raiz.
Experiência na construção de dashboards, alertas, consultas, notebooks e workflows dentro da ferramenta.
Conhecimento em integrações via APIs, webhooks e conectores nativos, incluindo cenários com ITSM/CMDB e ferramentas de monitoração.
Experiência com ambientes cloud e aplicações distribuídas.
Vivência com Kubernetes/EKS e monitoramento/instrumentação de workloads em containers.
Conhecimento de práticas ágeis, como Scrum e Kanban.
Boa comunicação para interação com times multidisciplinares e apresentação de insights para diferentes níveis da organização.
Perfil analítico, proativo e orientado à melhoria contínua.

Desejáveis:

Ter atuado em ambientes com Kubernetes, de grande porte e missão crítica.
Domínio avançado na ferramenta Datadog ou Elasticsearch.
Experiência em ambientes com alta volumetria de dados, múltiplos serviços e arquitetura distribuída.
Vivência em operações 24x7 e cenários com requisitos elevados de disponibilidade e resiliência.
Experiência no suporte a aplicações críticas para o negócio, preferencialmente em segmentos com alta exigência operacional, como varejo, financeiro, logística ou e-commerce.
Conhecimento em observabilidade aplicada a microsserviços, APIs, mensageria e ambientes híbridos/cloud.
Vivência com integração entre observabilidade e processos de incident management/problem management.
Experiência com automação de observabilidade como código.
Capacidade de atuar como referência técnica e multiplicador de conhecimento.

Responsabilidades principais:
1. Estratégia e Governança de Observabilidade
Definir, desenhar e evoluir a estratégia de observabilidade com foco em Datadog ou Elasticsearch.
Atuar como referência técnica interna da plataforma, promovendo boas práticas, padrões e governança.
Apoiar tecnicamente times de infraestrutura, desenvolvimento, arquitetura e operações no uso da ferramenta.
Conduzir ações de evangelização, treinamentos e disseminação de conhecimento sobre observabilidade, APM e telemetria.

2. Administração e Otimização da Plataforma
Configurar, administrar e otimizar a plataforma de observabilidade, incluindo agentes, coletores, pipelines, políticas e integrações.
Gerenciar retenção de dados, consumo, licenciamento, performance e custo operacional da ferramenta.
Atuar na definição de padrões de tagging, naming convention, organização de serviços e ambientes.
Garantir escalabilidade, disponibilidade e bom desempenho da solução de observabilidade.

3. Instrumentação e Telemetria
Implementar instrumentação automática e manual em aplicações e serviços.
Trabalhar com OpenTelemetry, SDKs, auto-instrumentation, collectors e agentes nativos.
Coletar, enriquecer e correlacionar métricas, logs e traces.
Mapear dependências entre aplicações, serviços e componentes de infraestrutura.
Apoiar times técnicos na adoção de telemetria customizada e observabilidade orientada a produtos e serviços.

4. Análise de Performance e Troubleshooting
Realizar análises aprofundadas de performance e comportamento de aplicações, considerando latência, throughput, taxa de erro e disponibilidade.
Atuar com distributed tracing, profiling, dependency mapping e investigação de incidentes.
Executar root cause analysis (RCA) em ambientes distribuídos e de missão crítica.
Apoiar o diagnóstico de falhas complexas, gargalos de desempenho e degradação de serviços.

5. Dashboards, Alertas, Notebooks e Workflows
Criar e manter dashboards operacionais, executivos e analíticos com foco em indicadores técnicos e de negócio.
Construir monitores e alertas acionáveis, reduzindo ruído e falsos positivos.
Implementar detecção de anomalias, correlação de eventos e limiares dinâmicos.
Desenvolver notebooks, consultas e investigações guiadas para análise técnica e storytelling de incidentes.
Criar workflows e automações para resposta operacional, enriquecimento de eventos e integração com processos internos.

6. Integrações, Automação e Ecossistema
Integrar Datadog ou Elasticsearch com plataformas de CMDB, ITSM, ServiceNow, Zabbix, CI/CD, webhooks, APIs e ferramentas corporativas.
Automatizar provisionamento de monitores, dashboards, alertas, tagging, onboarding de serviços e integrações.
Apoiar a integração com pipelines DevOps, observabilidade em Kubernetes e ambientes cloud.
Atuar na evolução contínua do ecossistema de observabilidade corporativa.

7. Comunicação e Suporte à Decisão
Traduzir análises técnicas em recomendações claras para públicos técnicos, gerenciais e executivos.
Apoiar tomadas de decisão com base em dados de observabilidade, confiabilidade e experiência do usuário.
Contribuir para melhoria contínua dos processos de operação, sustentação e engenharia de confiabilidade.