Key Facts

Remote From:

Brazil

Category: AI Operations (AI Ops) Engineer

Full time

Senior (5-10 years)

Portuguese

Hard Skills

Performance Profiling Performance Systems Analysis Performance Analysis Linux Python (Programming Language) Containerization TensorFlow Docker (Software) Stable Diffusion Quantization +9 more

Other Skills

•
Technical Acumen
•
Collaboration
•
Delivery Focused
•
Analytical Thinking
•
Problem Solving

Roles & Responsibilities

Solid experience deploying and optimizing AI models in production
Proficiency with PyTorch and TensorFlow, including model export
Strong knowledge of ONNX and ONNX Runtime
Experience with Linux, Docker, and containerized environments, and performance profiling/benchmarking

Requirements:

Lead deployment and productionization of AI models in enterprise environments
Optimize models for inference via quantization, pruning, and tuning to balance accuracy, latency, throughput, and energy consumption
Implement and operate inference pipelines using Triton Inference Server and ONNX Runtime
Integrate models with specialized hardware (e.g., Qualcomm Cloud AI) to maximize execution efficiency

UltraCon Consultoria

About UltraCon Consultoria

Institucional A UltraCon, sua parceira sob medida, oferece soluções que possibilitam o melhor retorno dos investimentos em seus serviços, baseado em princípios de qualidade, agilidade e flexibilidade nos modelos de entrega. Atuamos fortemente na gestão de pessoas, acreditando na retenção de talentos, formação e apoio contínuo aos nossos profissionais e clientes. Visão Ser um parceiro de negócio, que promova soluções adequadas, simples, flexíveis, inovadoras e de valor agregado. Missão Promover soluções de negócio, de grande valor agregado, para todas as empresas. Valores Comprometimento com: Ética, Transparência, Simplicidade, Ser Humano, Sociedade, e Meio Ambiente. ---------------------------------------------------------------------------------------------------------------------------------------------------- Facebook Empresarial pt-br.facebook.com/pages/Ultracon-Consultoria-em-Tecnologia-da-Informação-Ltda/130586510329396

Company type: SME

Founded: 2018

Company size: 11 - 50

Website LinkedIn See all jobs →

Job description

Vaga: 14081 - Senior AI Systems Engineer (Edge & Inference) Data de início: imediata Tempo de alocação: indeterminado Local de trabalho: São Paulo/SP @ Henri Dunant (100% remoto com disponibilidade para visitas eventuais) Horário: 9h00 às 18h00 Idiomas: inglês intermediário Visão Geral da Posição Buscamos um(a) Senior AI Systems Engineer (Edge & Inference) com perfil altamente técnico e orientado a performance, responsável por transformar modelos avançados de Inteligência Artificial em soluções prontas para produção, com foco em eficiência, escalabilidade e baixa latência. O profissional atuará diretamente na otimização e deploy de modelos (LLMs, Visão Computacional, NLP e Multimodais), operando em ambientes de alta complexidade e com forte interação entre software e hardware especializado, especialmente voltado a workloads de GenAI e Edge AI. A posição exige domínio de inferência otimizada, capacidade de atuar em nível de arquitetura e execução, além de forte orientação a resultados mensuráveis em performance e custo computacional. Principais Responsabilidades • Liderar o processo de deploy e produtização de modelos de IA em ambientes enterprise • Otimizar modelos para inferência (quantização, pruning, tuning), equilibrando acurácia, latência, throughput e consumo energético • Implementar e operar pipelines de inferência utilizando Triton Inference Server e ONNX Runtime • Integrar modelos com hardware especializado (ex: Qualcomm Cloud AI), garantindo máxima eficiência de execução • Desenvolver e manter pipelines de monitoramento, telemetria e health check de workloads de IA • Realizar profiling e benchmarking de performance (ex: qaic-bench) • Atuar no desenho de arquiteturas para casos avançados como LLM serving (RAG, copilots) e Video Analytics em tempo real • Desenvolver APIs e serviços de inferência em Python e C++ • Colaborar com times de dados, ML e engenharia na evolução das soluções de IA Requisitos Técnicos Obrigatórios • Experiência sólida com deploy e otimização de modelos de IA em produção • Domínio de frameworks de ML como PyTorch e TensorFlow (foco em exportação de modelos) • Forte conhecimento em ONNX e ONNX Runtime • Experiência com servidores de inferência (ex: Triton Inference Server) • Vivência prática com técnicas de otimização de inferência (INT8, FP16, mixed precision) • Conhecimento avançado em Python • Conhecimento intermediário/avançado em C++ (foco em performance e integração) • Experiência com Linux, Docker e ambientes containerizados • Experiência com profiling, benchmarking e análise de performance Conhecimentos em Modelos e Arquiteturas de IA • LLMs / GenAI: LLaMA, GPT-like, MPT, StarCoder, Whisper, Stable Diffusion • Visão Computacional: ResNet, ViT, YOLO, DETR • NLP tradicional: BERT e arquiteturas encoder-decoder • Modelos multimodais (texto-imagem / visão-linguagem) Experiência Prática Esperada (mínimo em um dos domínios) • GenAI / LLM Serving (RAG, copilots, chatbots de alta escala) • Vision AI / Video Analytics (processamento em tempo real, multicâmera) • Edge AI (cenários com restrição de latência e consumo) • NLP em escala (busca semântica, classificação, sumarização) Diferenciais • Experiência com Qualcomm Cloud AI SDK ou hardware acelerador similar • Histórico comprovado de deploy de modelos em produção em larga escala • Experiência avançada em otimização de inferência e tuning de performance • Capacidade de traduzir métricas técnicas em impacto de negócio • Experiência com ajuste dinâmico de batch size, throughput e consumo energético Soft Skills Esperadas • Forte capacidade analítica e orientação a performance • Autonomia técnica e senso de ownership • Capacidade de atuar em ambientes complexos e de alta exigência técnica • Comunicação clara com times multidisciplinares • Perfil colaborativo, com foco em resolução de problemas • Organização e disciplina na condução de entregas críticas Diferencial Competitivo da Posição Atuação direta em um dos cenários mais avançados de engenharia de IA aplicada, com foco em inferência otimizada em hardware especializado, envolvendo desafios reais de escala, performance e eficiência energética — posicionando o profissional na fronteira entre Machine Learning Engineering, Systems Engineering e High Performance Computing. Maiores detalhes técnicos, de contexto do produto e expectativas do cliente serão apresentados durante a entrevista técnica.

Ready to apply?

APPLY

Share ·