AI Engineer no Brasil: 6 senioridades que o mercado paga

Apareceu na minha timeline outro dia: vaga pedindo "5 anos de experiência sólida em IA agêntica". Cinco anos. Em uma stack que mal completou dois.

A vaga não é exceção. É sintoma. RH copia o template de "Senior Software Engineer", troca "Java" por "LLM" e manda para o mercado. O resultado é um filtro que rejeita 90% dos candidatos que dariam conta do recado e contrata o restante por nostalgia de currículo.

O problema é que a carreira de AI Engineer existe — só não cabe na régua antiga. Neste post eu mapeio as seis senioridades que aparecem nas vagas que pagam de verdade, o que cada nível entrega no dia a dia, quanto isso vale no Brasil em 2026 e qual é o critério que recrutador respeita para você saltar de uma para a outra.

TL;DR

O que é: mapa de senioridade para AI Engineer baseado em entregáveis, não em tempo de carteira.
Stack mínima por nível: API → harness próprio → RAG/evals → multi-agent → padrão na empresa → product strategy.
Faixa salarial no Brasil em 2026: de R$ 6k (júnior CLT) a R$ 60k+ (sênior remoto internacional). Principal em frontier lab é uncapped.
Critério de promoção que cola: demonstração de impacto fora do seu time, com número e nome em cima.

O JD de "5 anos em IA agêntica" é piada — mas a escala existe

A piada não está em pedir senioridade. Está em medir senioridade por tempo num campo onde o estado da arte muda a cada três meses.

Tool use estável virou produto em 2024. MCP foi padronizado em 2024 e virou de facto em 2025. Claude Code saiu em 2025. Anthropic publicou o paper de harness design para long-running agents em 2026. Se você está pedindo 5 anos de produção em "agentic AI", está pedindo um perfil que não existe.

Mas existe uma diferença gigante entre o dev que integrou ChatGPT no fluxo de atendimento e o dev que arquitetou um sistema multi-agente com guardrails, evals e custo controlado em produção. Essa diferença é mensurável. Tem nome. Tem entregável. Só não tem nada a ver com calendário.

A régua útil é entrega. Vamos a ela.

Os 6 níveis que o mercado paga de verdade

Cada nível abaixo tem três coisas: o que a pessoa entrega no dia a dia, o sinal de que ela "está pronta" para o nível e o tipo de produto que ela consegue colocar em produção sozinha.

Júnior — Integração de API e prompt simples

Sabe chamar a Anthropic, OpenAI ou Gemini via SDK. Lê a documentação oficial. Sabe a diferença entre system prompt, user message e assistant message. Constrói features tipo "resumir documento", "classificar e-mail", "extrair entidade de texto livre" com prompt direto.

Sabe o básico de prompt engineering: few-shot, role prompting, structured output via JSON schema. Conhece os limites de contexto, sabe que existe rate limit e custo por token.

Entregável típico: uma feature de IA num produto Laravel/Node que faz uma chamada por interação do usuário, com fallback se a API cair.

Não sabe ainda: como avaliar se o output está bom de forma sistemática, como controlar custo em escala, como lidar com sessão longa.

Pleno I — Harness próprio e tool use

Esse é o nível onde dev para de "usar IA" e começa a "construir com IA". Entende que o modelo sozinho não faz nada — quem decide o que ele vê, o que ele pode chamar e como ele itera é o código em volta. Isso é o harness.

Sabe implementar tool use com loop de execução, function calling, validação de argumento, retry com backoff. Sabe quando usar streaming e quando não vale a pena. Já bateu a cabeça com context window estourado pelo menos uma vez e aprendeu a podar histórico.

Conhece o Claude Agent SDK ou equivalente, mas consegue justificar quando vale construir o próprio loop. Lê posts de engenharia da Anthropic e OpenAI como quem lê manual de moto: para entender o motor, não para decorar receita.

Entregável típico: um agente que executa uma tarefa multi-step (ex: revisa pull request, gera relatório, responde dúvida sobre base de conhecimento interna) com 3 a 8 ferramentas próprias.

Não sabe ainda: medir qualidade do output de forma rigorosa, montar pipeline de RAG decente, debugar produção quando o agente decide algo bizarro às 3 da manhã.

Pleno II — RAG, evals e observability básico

Aqui o profissional sai do "funciona na minha máquina" e entra no "funciona com 50 mil documentos, 2 mil usuários por dia e custo previsível".

Sabe montar RAG com embeddings, vector DB (Qdrant, Pinecone, pgvector — escolhe baseado no contexto, não na hype), chunking estratégico, hybrid search com reranking. Entende metadata filtering, sabe quando o problema é o retrieval e quando é o prompt.

Constrói evals que valem alguma coisa: golden dataset com casos reais, LLM-as-judge calibrado contra anotação humana, métricas como precision/recall no retrieval, hallucination rate no output final. Sabe que "rodou no teste" não é o mesmo que "está bom em produção".

Implementa observability mínima: traces de cada chamada, custo por request, latência por etapa, taxa de erro por tool. Ferramentas como Weights & Biases, Langfuse ou stack próprio com OpenTelemetry.

Entregável típico: uma feature de RAG em produção com dashboard de qualidade, pipeline de avaliação rodando em CI e custo abaixo de orçamento mensal definido.

Não sabe ainda: arquitetar sistema com 5+ agentes coordenados, fazer hardening de segurança contra prompt injection sofisticado, defender escolhas técnicas em fórum executivo.

Sênior — Arquitetura multi-agent, custo e segurança

Pessoa que desenha o sistema, não só implementa. Olha para uma demanda de produto e pergunta: precisa mesmo de agente? Vai ser um agente único com várias ferramentas ou múltiplos agentes especializados orquestrados? O que acontece se o LLM principal sair do ar? Quanto vai custar quando o uso for 10x?

Domina padrões de arquitetura agêntica: supervisor-worker, plan-and-execute, reflection, debate. Sabe quando usar grafo determinístico em volta dos modelos e quando deixar o modelo decidir o fluxo. Sabe combinar modelo grande para raciocínio com modelo pequeno para execução, e mede o tradeoff em produção.

Trata segurança como cidadão de primeira classe: prompt injection, jailbreak via tool output, vazamento de dado sensível via embedding, controle de quem chama quê. Conhece o OWASP Top 10 for LLM Applications e aplica.

Faz capacity planning sério: token accounting, batch quando faz sentido, prompt caching, model fallback hierarchy. Defende a arquitetura em reunião com produto e finanças sem hesitar.

Entregável típico: sistema agêntico em produção atendendo área inteira do negócio, com SLA definido, custo abaixo de meta, runbook de incidente e estratégia de migração de modelo.

Não sabe ainda: transformar uma vitória pontual em padrão replicável pela empresa inteira, formar três Plenos II por ano, influenciar roadmap de produto da unidade.

Staff — Padroniza a skill na empresa e mentora time

Sênior bom resolve o problema da área. Staff bom faz a empresa inteira resolver problemas parecidos sem precisar dele em cada um.

Escreve o playbook interno de IA aplicada — não como wiki morta, como conjunto de bibliotecas internas, templates de arquitetura, gabaritos de prompt, baseline de eval que qualquer time pode puxar e usar. Define o golden path da empresa para construir feature de IA.

Conduz tech review de propostas vindas de outros times. Mentora plenos para virarem sêniores e sêniores para virarem staff. Aparece menos no código, mais em decisão. Sabe quando entrar no código e quando ficar de fora.

Tem relação direta com diretoria de engenharia e produto. Não pede permissão para iniciar um projeto que cruze três times — chega com proposta, número e plano.

Entregável típico: uma plataforma interna de IA usada por N times, com governança de custo, segurança e qualidade. Quando um novo time quer construir feature de IA, eles começam pelo que o Staff montou.

Não sabe ainda — ou ainda não opera no nível de: definir estratégia de produto que dependa de IA para a empresa toda; representar a empresa fora dela; fazer aposta plurianual que move ponteiro de receita.

Principal / Distinguished — Define product strategy ao redor de IA

Distinguished e Fellow somam algumas centenas de pessoas no mundo. Principal é mais frequente, mas continua raro. Os dois compartilham uma característica: a empresa muda de rota porque essa pessoa olhou para um problema e disse "é por aqui".

Define a aposta da empresa em IA. Não é "qual modelo usar". É "qual produto a gente constrói porque IA viabilizou agora, e qual a gente para de construir porque IA tornou irrelevante". Trabalha lado a lado com CPO, CTO e CEO. Recruta C-level adjacente.

Influencia a indústria. Publica paper, palestra em conferência, lidera grupo de trabalho de padrão (MCP, OpenTelemetry para LLM, padrão de eval). Representa a empresa quando o Times pergunta sobre IA responsável.

Entregável típico: uma aposta de produto plurianual baseada em IA que move receita ou posição de mercado. Não é uma feature. É um eixo.

Quanto cada nível paga no Brasil em 2026

Os números abaixo são compilação de Glassdoor Brasil, pesquisas como Sigmoidal, Robert Half e FIAP Radar Tech 2026, cruzadas com vagas reais publicadas nos últimos meses. CLT no Brasil, PJ remoto BR e PJ remoto internacional pagam coisas muito diferentes — separei.

Nível	CLT Brasil (mensal)	PJ Remoto BR (mensal)	PJ Remoto Internacional (mensal)
Júnior	R$ 4–7k	R$ 6–10k	R$ 15–25k
Pleno I	R$ 8–13k	R$ 12–18k	R$ 25–40k
Pleno II	R$ 13–20k	R$ 18–28k	R$ 35–55k
Sênior	R$ 20–32k	R$ 25–40k	R$ 50–80k
Staff	R$ 30–50k	R$ 40–65k	R$ 80–150k
Principal	Raríssimo no Brasil CLT	R$ 60k+	$300k+ TC/ano, uncapped em frontier lab

Caveats que importam:

Empresa cripto, fintech ou produto de IA pura paga acima da banda. Consultoria genérica paga abaixo.
Equity muda tudo em early-stage. Sem equity, principal em startup vale menos que sênior em big tech.
Sigla bonita não cola sem entrega. "Senior AI Engineer" no LinkedIn de quem só fez prompt em chatbot não defende a banda em entrevista técnica.

O critério que recrutador respeita para você saltar de nível

Não é tempo. Não é certificado. Não é número de cursos. É demonstração de impacto fora do seu escopo atual, com nome próprio em cima.

A frase que Sean Goedecke usa para promoção a Staff vale para todo salto na carreira de AI Engineer: você é julgado por sucesso e fracasso, não por esforço. Projeto que entrou em produção e movimentou ponteiro vale. Projeto que ficou no Notion não vale.

O exercício para cada salto:

Para virar Pleno I: mostre um harness próprio que você desenhou, com loop de tool use, em produção ou em projeto pessoal sério. Não vale ter rodado o tutorial. Tem que ter dado errado pelo menos três vezes antes de funcionar, e você tem que conseguir contar por quê. Esse tipo de bagagem é o que a gente destrincha no Harness Engineering com Claude Code, o workshop ao vivo do Beer & Code sobre construir e operar um harness próprio em cima do Claude Code — do loop autônomo ao agente em produção.
Para virar Pleno II: mostre um eval suite com golden dataset, LLM-as-judge calibrado e número antes/depois de uma mudança de prompt ou modelo.
Para virar Sênior: mostre um sistema agêntico em produção com SLA, custo controlado, plano de continuidade quando o modelo principal falhar e um runbook que outra pessoa consiga seguir às 3 da manhã.
Para virar Staff: mostre adoção interna do que você construiu por times que não são o seu, com número (N times usando, X% de redução de tempo para entregar feature de IA).
Para virar Principal: mostre uma aposta de produto que aconteceu porque você empurrou, com impacto em receita ou posição de mercado.

O denominador comum é o mesmo: número e nome em cima. "Contribuí em 30 projetos" é o que o JD pede e o que o senior recruiter ignora. "Reduzi custo de IA do time em 62% mantendo qualidade, com pipeline de eval rodando em CI" é o que abre porta de Pleno II para Sênior.

Limitações desse mapa

Empresa pequena junta Pleno II e Sênior no mesmo cargo. Big tech disseca Sênior em três sub-níveis (L4/L5/L6). Frontier lab tem um cargo chamado "Member of Technical Staff" que bagunça qualquer mapa por estar entre Sênior e Staff sem ser nenhum dos dois.

Nomenclatura é fluida. Entregável não. Quando dois recrutadores experientes conversam sobre um candidato, eles batem o pé no que ele entregou, não na sigla que ele exibe.

Outra limitação: esse mapa é para AI Engineer aplicado, não para Research Scientist. Quem treina modelo de zero, publica em NeurIPS e debate arquitetura de transformer está em outra trilha, com outra régua salarial e outro tipo de capital de carreira.

FAQ rápido

Preciso de mestrado/doutorado para virar Sênior em IA? Não. Ajuda em research e em frontier labs. Atrapalha em produto. AI Engineer aplicado é trilha de quem entrega em produção, não de quem publica paper.

Posso pular de Júnior direto para Pleno II? Tecnicamente sim, se você tiver portfólio. Na prática, é raro — porque Pleno II exige cicatriz de produção, e cicatriz não vem de tutorial.

Vale aprender LangChain/LlamaIndex ou ir direto no SDK do provider? Saber os dois. Comece pelo SDK oficial (Anthropic, OpenAI) porque os frameworks abstraem coisas que você precisa entender. Depois use framework quando ele economiza tempo, não porque ficou da moda.

E se eu já tenho 10 anos como dev backend? Sua bagagem vale ouro para Pleno II e Sênior. O que pega são os meses iniciais para internalizar o jeito não-determinístico de pensar. Quem tem experiência sólida em sistema distribuído costuma evoluir mais rápido em IA do que dev verde.

Conclusão

A vaga que pede "5 anos de experiência em IA agêntica" não está descrevendo um candidato. Está descrevendo a confusão do RH. O mercado paga pela entrega que você consegue colocar em produção — não pelo tempo que você esteve perto do tema.

Olha o mapa de novo, pega o nível onde você está hoje e identifica o entregável que falta para o próximo. Trabalha nele com nome próprio em cima. É assim que se sobe de nível em uma carreira que ainda está sendo desenhada.

AI Engineer no Brasil: as 6 senioridades que o mercado realmente paga (e o que cada uma entrega)