#Evals

01 #openai · #ai-agents

Um agente da OpenAI fugiu do sandbox e hackeou a Hugging Face: 5 lições pra quem roda agente

A OpenAI confirmou que dois modelos escaparam de um sandbox de avaliação, invadiram a infraestrutura de produção da Hugging Face e roubaram o gabarito do próprio benchmark que estavam fazendo. O nome disso não é rebelião das máquinas: é reward hacking. E as lições valem para qualquer agente com acesso a shell e rede.

22 Jul · 11 min ›

02 #produto-ia · #llm

Claude Sonnet 5: como interpretar os benchmarks na prática

Saiu o Claude Sonnet 5. Em vez de printar a tabela, este post mostra como interpretar os benchmarks na prática (custo por tarefa, esforço, com e sem ferramentas) para quem usa Claude Code e integra IA em produto.

30 Jun · 9 min ›

03 #ia · #ai-agents

Como criar evals para agentes de IA com LLM-as-a-judge

Monte um pipeline de avaliação de agentes de IA com LLM-as-a-judge: dataset de falhas reais, rubricas, scoring com barra de erro e gate no CI. Sem eval, deploy é no escuro.

21 Jun · 12 min ›

04 #openai · #ia

Agent improvement loop: o ciclo que faz o agente melhorar o próprio código

Como montar um loop de auto-melhoria de agente — gera, testa, avalia, corrige — inspirado no agent improvement loop do Agents SDK da OpenAI. Com código, evals que medem a trajetória e a trava que só aceita a mudança quando o número sobe.

18 Jun · 8 min ›

05 #ia · #ai-agents

Avaliação de agentes de IA: como montar evals honestos

"Funciona nos meus testes" não é avaliação. Como montar evals honestos para um agente: golden set de falhas reais, métricas por etapa (recuperação, decisão de tool, resposta) e LLM como juiz com cautela.

06 Jun · 10 min ›

06 #performance · #openai

Reasoning models em produção: quando o trade de latência vale a pena

Reasoning model resolve o que modelo normal não resolve. Em troca: três vezes mais latência, cinco vezes mais tokens. Em maio/2026, com o3, DeepSeek-R1 e Claude Sonnet 4.5 estáveis, dá pra falar com número na mesa: quando vale o trade e qual pattern de roteador separa o time que opera bem do time que estourou o budget no terceiro dia.

30 Mai · 9 min ›

07 #ia · #rag

Context engineering: a skill nº1 do AI engineer em 2026

Em 2026 a vaga sênior não pede mais prompt engineer. Pede pipeline de contexto. Os 5 pilares do context engineering, stack Laravel com pgvector e bge-reranker, e a métrica nova que recrutador olha — context utilization ratio.

30 Mai · 11 min ›

08 #openai · #ia

RAG + fine-tuning juntos: a arquitetura híbrida que joga a briga "ou um ou outro" no lixo

A briga "RAG ou fine-tuning?" acabou em 2026. 60% dos projetos sérios rodam os dois — fine-tuning controla COMO o modelo responde (formato, tom, raciocínio), RAG controla O QUÊ (fatos atuais e citáveis). Veja o benchmark 96% híbrido vs 89% RAG só vs 91% fine-tuning só, o padrão de roteamento por classificador leve que corta 70–90% do custo, e os cenários em que combinar os dois é overengineering.

29 Mai · 5 min ›

09 #ai-agents · #observabilidade

Observabilidade de agentes de IA: LangSmith vs Langfuse vs Helicone (e o que cada um NÃO faz)

Mapa frio das três opções de LLM observability em maio de 2026 (uma delas em maintenance mode), com setup Langfuse self-hosted em Laravel e três métricas de agente que mudam o jogo.

28 Mai · 12 min ›

10 #openai · #ia

Glossário do AI Engineer Vol.2: 20 termos NOVOS que apareceram em 2026 (que você não pode chegar sem saber)

Em seis meses depois do Vol.1, vinte termos novos entraram no vocabulário dos times sérios de IA: context engineering, plan-and-execute, streamable HTTP MCP, AIDR, harness telemetry, world models, spec-driven dev. Cada um em duas ou três linhas, com exemplo concreto. Bônus: cinco que sumiram.

26 Mai · 14 min ›

11 #ia · #rag

30 perguntas de entrevista para AI engineer (e como eu respondo cada uma)

30 perguntas reais (10 técnicas, 10 de arquitetura, 10 comportamentais) de entrevistas para AI engineer em maio de 2026. Pra cada uma: resposta curta de 30s, resposta de senior de 2min, e o red flag que entrega o junior. Mais 5 perguntas reversas pra filtrar empresa sem maturidade de IA.

25 Mai · 14 min ›

12 #ia · #evals

AI engineer no 2º semestre de 2026: o que o recrutador vai pedir

Li 200 vagas de AI engineer postadas em maio de 2026 e separei sinal de ruído: quatro skills que sobem (context engineering, evals, harness e compliance), três que perdem peso e um roteiro de 90 dias pra entrar na shortlist do segundo semestre.

23 Mai · 11 min ›