#Boas Praticas
Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)
LLM-as-judge é o atalho que todo time de IA usa pra escalar evals. Mas tem três armadilhas que silenciosamente invalidam o pipeline: self-preference, position e verbosity bias, e calibração ausente. Cobrimos os três padrões de prompt para grader (rubric, reference, pairwise) e como blindar contra cada erro com mitigação concreta.
Versionando specs: como manter documentação viva sem virar mais um README abandonado
Tripé Git + spec + ADR (Architecture Decision Records) que mantém doc viva ao lado do código, com hooks de pré-commit que travam o drift. Estrutura mínima, scripts de validação e configuração pre-commit prontos para colar — sem precisar contratar engenheiro de documentação.
Como escrever uma spec que o agente realmente entende (e não inventa em cima)
A maior parte dos bugs de agente em 2026 não é o modelo errando, é a spec mentindo. Três anti-padrões reais (ambiguidade, contexto inútil e regra implícita) com exemplos antes/depois e checklist de sete pontos pra validar a spec antes de mandar pro Claude Code.
5 sinais de que sua especificação virou burocracia (e como voltar à base bem feita)
Spec-driven virou padrão em 2026, e com ele veio o risco do pêndulo: spec gigante, aprovada em comitê, ignorada pelo time e filtrada pelo agente. Cinco sintomas concretos e o ajuste prático para cada um.