Buscamos um(a) Engenheiro(a) de MLOps para dar suporte às operações e à manutenção de soluções GenAI e agentes em produção. O profissional será responsável por executar procedimentos operacionais padrão (POPs), monitorar a integridade do sistema e solucionar problemas usando ferramentas de observabilidade e logs para garantir a confiabilidade, o desempenho e a escalabilidade de aplicações baseadas em IA.
Principais Responsabilidades
Operações e Suporte
* Executar e seguir os Procedimentos Operacionais Padrão (POPs) estabelecidos para GenAI e soluções baseadas em agentes em produção
* Monitorar a integridade da plataforma, o desempenho do modelo e os pipelines de inferência
* Garantir a estabilidade e a disponibilidade dos serviços de IA em todos os ambientes
Gerenciamento de Incidentes e Solução de Problemas
* Investigar e resolver incidentes analisando logs, rastreamentos e métricas
* Realizar análise de causa raiz (ACR) e documentar as descobertas
* Agir dentro dos processos de escalonamento definidos quando necessário
Observabilidade e Monitoramento
* Utilizar ferramentas de observabilidade (logs, métricas, rastreamento) para detectar anomalias e problemas de desempenho
* Apoiar a melhoria contínua do monitoramento, alertas e painéis de controle
* Garantir a instrumentação adequada das cargas de trabalho de GenAI e ML
Operações de GenAI e Agentes
* Apoiar as operações de tempo de execução de aplicativos baseados em LLM e fluxos de trabalho baseados em agentes
* Monitorar o desempenho da inferência (latência, taxa de transferência, custo)
* Garantir a adesão às diretrizes, padrões de confiabilidade e melhores práticas operacionais Práticas de Melhoria Contínua
* Identificar oportunidades para automatizar tarefas operacionais e melhorar a eficiência
* Contribuir para a evolução de Procedimentos Operacionais Padrão (POPs), manuais de execução e estruturas operacionais
* Colaborar com as equipes de Engenharia e Ciência de Dados para melhorar a confiabilidade do sistema.
Modelo de Trabalho: Remoto
Inglês: Avançado

Altisource

dormakaba

The Johns Hopkins University

Taraki App

NodeSure Technologies

Addvisor Group

Addvisor Group

Addvisor Group