#LLM-as-a-Judge

01 #ia · #ai-agents

Como criar evals para agentes de IA com LLM-as-a-judge

Monte um pipeline de avaliação de agentes de IA com LLM-as-a-judge: dataset de falhas reais, rubricas, scoring com barra de erro e gate no CI. Sem eval, deploy é no escuro.

21 Jun · 12 min ›

02 #ia · #llm

Fable 5 bloqueado: o OpenRouter Fusion prova que painel de modelos já supera qualquer frontier

O Claude Fable 5 durou três dias disponível antes de ser bloqueado pelo governo dos EUA. Enquanto isso, o OpenRouter publicou dados que mudam a pergunta: e se painel de modelos baratos já superar qualquer frontier solo em deep research?

15 Jun · 7 min ›

03 #ia · #ai-agents

Avaliação de agentes de IA: como montar evals honestos

"Funciona nos meus testes" não é avaliação. Como montar evals honestos para um agente: golden set de falhas reais, métricas por etapa (recuperação, decisão de tool, resposta) e LLM como juiz com cautela.

06 Jun · 10 min ›

04 #tool-use · #llm-as-a-judge

5 padrões de prompt que sobem o sinal do code review com LLM de 12% pra 67%

Bot de code review que comenta "considere adicionar testes" em todo PR vira meme rápido. Cinco padrões — diff-anchored, severity gate, tool use antes do palpite, citation obrigatória e self-grading com threshold — sobem o signal ratio acima de 60% e mantêm o time confiando no review. Inclui workflow Laravel pronto.

24 Mai · 14 min ›

05 #laravel · #tool-use

Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo

Todo PR abre, o bot comenta a mesma coisa: considere adicionar testes, refatore isso, verifique aquilo. Em duas semanas o time muta o canal. Code review com IA não é problema de modelo, é problema de filtro. Neste post: prompt em três camadas, ferramentas que validam antes de palpitar, scoring de confiança 0 a 100 com threshold de 80, workflow Laravel + Claude no GitHub Actions pronto para colar e uma métrica honesta de precision e recall do bot.

12 Mai · 15 min ›

06 #openai · #ia

Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)

LLM-as-judge é o atalho que todo time de IA usa pra escalar evals. Mas tem três armadilhas que silenciosamente invalidam o pipeline: self-preference, position e verbosity bias, e calibração ausente. Cobrimos os três padrões de prompt para grader (rubric, reference, pairwise) e como blindar contra cada erro com mitigação concreta.

08 Mai · 12 min ›

07 #ia · #observabilidade

Do prompt frágil ao sistema confiável: pipeline de eval contínuo para prompts em produção

Trocou o modelo, mudou uma frase no system, ajustou um exemplo, e 30% dos casos regrediram em silêncio. Pipeline de eval contínuo no CI resolve isso. Dataset versionado, runner em cada PR, gate de qualidade que barra merge. Mão na massa com Promptfoo e GitHub Actions.

07 Mai · 10 min ›

08 #ia · #harness

Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra

Funciona no happy path, mas e quando o usuário manda emoji, idioma misto e SQL injection? Em vez de rezar, monte um dataset com cinquenta casos adversariais, rode evals automatizadas e meça pass rate, custo e latência a cada iteração. É assim que prompt vira engenharia.

05 Mai · 10 min ›

09 #agentes · #ai-agents

Multi-agent com Claude: separando search, judge e writer (e quando isso é overengineering)

Quando vale a pena quebrar o agente único em sub-agentes especializados (search, judge, writer) e quando isso vira complexidade desnecessária. Padrão de orquestração com Claude, custo real em tokens e quando voltar para single-agent.

30 Abr · 11 min ›

10 #ia · #produto-ia

Sintetizando reviews sem enviesar: como resumir sentimento real em meio a manipulação

Joga 8 mil reviews no Claude e pede para resumir. O resumo sai bonito e enganoso. Estrelas mentem, LLM supergeneraliza e a base costuma estar contaminada por manipulação. Este post constrói um pipeline em quatro estágios (saneamento, amostragem estratificada, síntese map-reduce e auditoria) para resumir centenas de reviews sem mascarar crítica real. Útil para UX entender onde o produto dói e para compliance dormir tranquilo sob a nova regra da FTC.

28 Abr · 10 min ›

11 #laravel · #ia

LLM-as-a-Judge: avaliação automatizada do seu agente de ofertas sem abrir planilha

Como montar um juiz LLM que pontua cada resposta do agente contra uma rubrica objetiva: preço correto, link válido, sentimento de review coerente. Você sai do achismo e transforma iteração em ciclo mensurável.

28 Abr · 11 min ›