#Evals
Avaliação de agentes de IA: como montar evals honestos
"Funciona nos meus testes" não é avaliação. Como montar evals honestos para um agente: golden set de falhas reais, métricas por etapa (recuperação, decisão de tool, resposta) e LLM como juiz com cautela.
Reasoning models em produção: quando o trade de latência vale a pena
Reasoning model resolve o que modelo normal não resolve. Em troca: três vezes mais latência, cinco vezes mais tokens. Em maio/2026, com o3, DeepSeek-R1 e Claude Sonnet 4.5 estáveis, dá pra falar com número na mesa: quando vale o trade e qual pattern de roteador separa o time que opera bem do time que estourou o budget no terceiro dia.
Context engineering: a skill nº1 do AI engineer em 2026
Em 2026 a vaga sênior não pede mais prompt engineer. Pede pipeline de contexto. Os 5 pilares do context engineering, stack Laravel com pgvector e bge-reranker, e a métrica nova que recrutador olha — context utilization ratio.
RAG + fine-tuning juntos: a arquitetura híbrida que joga a briga "ou um ou outro" no lixo
A briga "RAG ou fine-tuning?" acabou em 2026. 60% dos projetos sérios rodam os dois — fine-tuning controla COMO o modelo responde (formato, tom, raciocínio), RAG controla O QUÊ (fatos atuais e citáveis). Veja o benchmark 96% híbrido vs 89% RAG só vs 91% fine-tuning só, o padrão de roteamento por classificador leve que corta 70–90% do custo, e os cenários em que combinar os dois é overengineering.
Observabilidade de agentes de IA: LangSmith vs Langfuse vs Helicone (e o que cada um NÃO faz)
Mapa frio das três opções de LLM observability em maio de 2026 (uma delas em maintenance mode), com setup Langfuse self-hosted em Laravel e três métricas de agente que mudam o jogo.
Glossário do AI Engineer Vol.2: 20 termos NOVOS que apareceram em 2026 (que você não pode chegar sem saber)
Em seis meses depois do Vol.1, vinte termos novos entraram no vocabulário dos times sérios de IA: context engineering, plan-and-execute, streamable HTTP MCP, AIDR, harness telemetry, world models, spec-driven dev. Cada um em duas ou três linhas, com exemplo concreto. Bônus: cinco que sumiram.
30 perguntas de entrevista para AI engineer (e como eu respondo cada uma)
30 perguntas reais (10 técnicas, 10 de arquitetura, 10 comportamentais) de entrevistas para AI engineer em maio de 2026. Pra cada uma: resposta curta de 30s, resposta de senior de 2min, e o red flag que entrega o junior. Mais 5 perguntas reversas pra filtrar empresa sem maturidade de IA.
AI engineer no 2º semestre de 2026: o que o recrutador vai pedir
Li 200 vagas de AI engineer postadas em maio de 2026 e separei sinal de ruído: quatro skills que sobem (context engineering, evals, harness e compliance), três que perdem peso e um roteiro de 90 dias pra entrar na shortlist do segundo semestre.
Quanto custa um agente em produção em 2026: planilha real depois de 6 meses
A calculadora da OpenAI mente. Pricing de token é só um item de linha; a fatura real de um agente em produção tem seis baldes: inferência, eval em runtime, observability, infra, pessoas, outros. Este post abre o balancete de 6 meses, mês a mês, com números e fontes. No fim, build vs buy: quando vale construir e quando você está pagando para reinventar o Cursor.
AI Engineer no Brasil: as 6 senioridades que o mercado realmente paga (e o que cada uma entrega)
RH pede 5 anos em IA agêntica para um campo que não tem 5 anos. A escala real é outra. Mapa de 6 senioridades de AI Engineer no Brasil em 2026 com entregáveis por nível, faixa salarial e o critério de promoção que recrutador respeita.
TDD com agentes: como escrever testes que sobrevivem ao código gerado
Agente deletou o teste pra fazer passar. Aconteceu, vai acontecer. METR documentou em 2025 modelos modificando timers e graders pra parecer rápido. TDD com agente exige inversão: o teste é a especificação executável, quem escreve o teste manda no agente.
Os 4 níveis de autonomia em Agentic Code: do autocompletar ao agente que faz deploy sozinho
Quem roda agentes em código de verdade já entendeu que a régua não é se o agente faz, mas quem aprova, quem reverte e quem audita cada ação. Mapa prático de quatro níveis de autonomia em agentic code, do tab completion ao agente que abre PR sozinho em CI, com os gates de engenharia que sustentam cada degrau.