Logo for UltraCon Consultoria

14081 - Senior AI Systems Engineer (Edge & Inference)

Key Facts

Remote From: 
Full time
Senior (5-10 years)
Portuguese

Other Skills

  • Technical Acumen
  • Collaboration
  • Delivery Focused
  • Analytical Thinking
  • Problem Solving

Roles & Responsibilities

  • Solid experience deploying and optimizing AI models in production
  • Proficiency with PyTorch and TensorFlow, including model export
  • Strong knowledge of ONNX and ONNX Runtime
  • Experience with Linux, Docker, and containerized environments, and performance profiling/benchmarking

Requirements:

  • Lead deployment and productionization of AI models in enterprise environments
  • Optimize models for inference via quantization, pruning, and tuning to balance accuracy, latency, throughput, and energy consumption
  • Implement and operate inference pipelines using Triton Inference Server and ONNX Runtime
  • Integrate models with specialized hardware (e.g., Qualcomm Cloud AI) to maximize execution efficiency

Job description

Vaga: 14081 - Senior AI Systems Engineer (Edge & Inference) Data de início: imediata Tempo de alocação: indeterminado Local de trabalho: São Paulo/SP @ Henri Dunant (100% remoto com disponibilidade para visitas eventuais) Horário: 9h00 às 18h00 Idiomas: inglês intermediário Visão Geral da Posição Buscamos um(a) Senior AI Systems Engineer (Edge & Inference) com perfil altamente técnico e orientado a performance, responsável por transformar modelos avançados de Inteligência Artificial em soluções prontas para produção, com foco em eficiência, escalabilidade e baixa latência. O profissional atuará diretamente na otimização e deploy de modelos (LLMs, Visão Computacional, NLP e Multimodais), operando em ambientes de alta complexidade e com forte interação entre software e hardware especializado, especialmente voltado a workloads de GenAI e Edge AI. A posição exige domínio de inferência otimizada, capacidade de atuar em nível de arquitetura e execução, além de forte orientação a resultados mensuráveis em performance e custo computacional. Principais Responsabilidades • Liderar o processo de deploy e produtização de modelos de IA em ambientes enterprise • Otimizar modelos para inferência (quantização, pruning, tuning), equilibrando acurácia, latência, throughput e consumo energético • Implementar e operar pipelines de inferência utilizando Triton Inference Server e ONNX Runtime • Integrar modelos com hardware especializado (ex: Qualcomm Cloud AI), garantindo máxima eficiência de execução • Desenvolver e manter pipelines de monitoramento, telemetria e health check de workloads de IA • Realizar profiling e benchmarking de performance (ex: qaic-bench) • Atuar no desenho de arquiteturas para casos avançados como LLM serving (RAG, copilots) e Video Analytics em tempo real • Desenvolver APIs e serviços de inferência em Python e C++ • Colaborar com times de dados, ML e engenharia na evolução das soluções de IA Requisitos Técnicos Obrigatórios • Experiência sólida com deploy e otimização de modelos de IA em produção • Domínio de frameworks de ML como PyTorch e TensorFlow (foco em exportação de modelos) • Forte conhecimento em ONNX e ONNX Runtime • Experiência com servidores de inferência (ex: Triton Inference Server) • Vivência prática com técnicas de otimização de inferência (INT8, FP16, mixed precision) • Conhecimento avançado em Python • Conhecimento intermediário/avançado em C++ (foco em performance e integração) • Experiência com Linux, Docker e ambientes containerizados • Experiência com profiling, benchmarking e análise de performance Conhecimentos em Modelos e Arquiteturas de IA • LLMs / GenAI: LLaMA, GPT-like, MPT, StarCoder, Whisper, Stable Diffusion • Visão Computacional: ResNet, ViT, YOLO, DETR • NLP tradicional: BERT e arquiteturas encoder-decoder • Modelos multimodais (texto-imagem / visão-linguagem) Experiência Prática Esperada (mínimo em um dos domínios) • GenAI / LLM Serving (RAG, copilots, chatbots de alta escala) • Vision AI / Video Analytics (processamento em tempo real, multicâmera) • Edge AI (cenários com restrição de latência e consumo) • NLP em escala (busca semântica, classificação, sumarização) Diferenciais • Experiência com Qualcomm Cloud AI SDK ou hardware acelerador similar • Histórico comprovado de deploy de modelos em produção em larga escala • Experiência avançada em otimização de inferência e tuning de performance • Capacidade de traduzir métricas técnicas em impacto de negócio • Experiência com ajuste dinâmico de batch size, throughput e consumo energético Soft Skills Esperadas • Forte capacidade analítica e orientação a performance • Autonomia técnica e senso de ownership • Capacidade de atuar em ambientes complexos e de alta exigência técnica • Comunicação clara com times multidisciplinares • Perfil colaborativo, com foco em resolução de problemas • Organização e disciplina na condução de entregas críticas Diferencial Competitivo da Posição Atuação direta em um dos cenários mais avançados de engenharia de IA aplicada, com foco em inferência otimizada em hardware especializado, envolvendo desafios reais de escala, performance e eficiência energética — posicionando o profissional na fronteira entre Machine Learning Engineering, Systems Engineering e High Performance Computing. Maiores detalhes técnicos, de contexto do produto e expectativas do cliente serão apresentados durante a entrevista técnica.

AI Operations (AI Ops) Engineer Related jobs

Other jobs at UltraCon Consultoria

We help you get seen. Not ignored.

We help you get seen faster — by the right people.

🚀

Auto-Apply

We apply for you — automatically and instantly.

Save time, skip forms, and stay on top of every opportunity. Because you can't get seen if you're not in the race.

AI Match Feedback

Know your real match before you apply.

Get a detailed AI assessment of your profile against each job posting. Because getting seen starts with passing the filters.

Upgrade to Premium. Apply smarter and get noticed.

Upgrade to Premium

Join thousands of professionals who got noticed and hired faster.