Solid experience deploying and optimizing AI models in production
Proficiency with PyTorch and TensorFlow, including model export
Strong knowledge of ONNX and ONNX Runtime
Experience with Linux, Docker, and containerized environments, and performance profiling/benchmarking
Requirements:
Lead deployment and productionization of AI models in enterprise environments
Optimize models for inference via quantization, pruning, and tuning to balance accuracy, latency, throughput, and energy consumption
Implement and operate inference pipelines using Triton Inference Server and ONNX Runtime
Integrate models with specialized hardware (e.g., Qualcomm Cloud AI) to maximize execution efficiency
Job description
Vaga: 14081 - Senior AI Systems Engineer (Edge & Inference)
Data de início: imediata
Tempo de alocação: indeterminado
Local de trabalho: São Paulo/SP @ Henri Dunant (100% remoto com disponibilidade para visitas eventuais)
Horário: 9h00 às 18h00
Idiomas: inglês intermediário
Visão Geral da Posição
Buscamos um(a) Senior AI Systems Engineer (Edge & Inference) com perfil altamente técnico e orientado a performance, responsável por transformar modelos avançados de Inteligência Artificial em soluções prontas para produção, com foco em eficiência, escalabilidade e baixa latência.
O profissional atuará diretamente na otimização e deploy de modelos (LLMs, Visão Computacional, NLP e Multimodais), operando em ambientes de alta complexidade e com forte interação entre software e hardware especializado, especialmente voltado a workloads de GenAI e Edge AI.
A posição exige domínio de inferência otimizada, capacidade de atuar em nível de arquitetura e execução, além de forte orientação a resultados mensuráveis em performance e custo computacional.
Principais Responsabilidades
• Liderar o processo de deploy e produtização de modelos de IA em ambientes enterprise
• Otimizar modelos para inferência (quantização, pruning, tuning), equilibrando acurácia, latência, throughput e consumo energético
• Implementar e operar pipelines de inferência utilizando Triton Inference Server e ONNX Runtime
• Integrar modelos com hardware especializado (ex: Qualcomm Cloud AI), garantindo máxima eficiência de execução
• Desenvolver e manter pipelines de monitoramento, telemetria e health check de workloads de IA
• Realizar profiling e benchmarking de performance (ex: qaic-bench)
• Atuar no desenho de arquiteturas para casos avançados como LLM serving (RAG, copilots) e Video Analytics em tempo real
• Desenvolver APIs e serviços de inferência em Python e C++
• Colaborar com times de dados, ML e engenharia na evolução das soluções de IA
Requisitos Técnicos Obrigatórios
• Experiência sólida com deploy e otimização de modelos de IA em produção
• Domínio de frameworks de ML como PyTorch e TensorFlow (foco em exportação de modelos)
• Forte conhecimento em ONNX e ONNX Runtime
• Experiência com servidores de inferência (ex: Triton Inference Server)
• Vivência prática com técnicas de otimização de inferência (INT8, FP16, mixed precision)
• Conhecimento avançado em Python
• Conhecimento intermediário/avançado em C++ (foco em performance e integração)
• Experiência com Linux, Docker e ambientes containerizados
• Experiência com profiling, benchmarking e análise de performance
Conhecimentos em Modelos e Arquiteturas de IA
• LLMs / GenAI: LLaMA, GPT-like, MPT, StarCoder, Whisper, Stable Diffusion
• Visão Computacional: ResNet, ViT, YOLO, DETR
• NLP tradicional: BERT e arquiteturas encoder-decoder
• Modelos multimodais (texto-imagem / visão-linguagem)
Experiência Prática Esperada (mínimo em um dos domínios)
• GenAI / LLM Serving (RAG, copilots, chatbots de alta escala)
• Vision AI / Video Analytics (processamento em tempo real, multicâmera)
• Edge AI (cenários com restrição de latência e consumo)
• NLP em escala (busca semântica, classificação, sumarização)
Diferenciais
• Experiência com Qualcomm Cloud AI SDK ou hardware acelerador similar
• Histórico comprovado de deploy de modelos em produção em larga escala
• Experiência avançada em otimização de inferência e tuning de performance
• Capacidade de traduzir métricas técnicas em impacto de negócio
• Experiência com ajuste dinâmico de batch size, throughput e consumo energético
Soft Skills Esperadas
• Forte capacidade analítica e orientação a performance
• Autonomia técnica e senso de ownership
• Capacidade de atuar em ambientes complexos e de alta exigência técnica
• Comunicação clara com times multidisciplinares
• Perfil colaborativo, com foco em resolução de problemas
• Organização e disciplina na condução de entregas críticas
Diferencial Competitivo da Posição
Atuação direta em um dos cenários mais avançados de engenharia de IA aplicada, com foco em inferência otimizada em hardware especializado, envolvendo desafios reais de escala, performance e eficiência energética — posicionando o profissional na fronteira entre Machine Learning Engineering, Systems Engineering e High Performance Computing.
Maiores detalhes técnicos, de contexto do produto e expectativas do cliente serão apresentados durante a entrevista técnica.