#LLM-as-a-Judge

Avaliação de agentes de IA: como montar evals honestos
Tutoriais

Avaliação de agentes de IA: como montar evals honestos

"Funciona nos meus testes" não é avaliação. Como montar evals honestos para um agente: golden set de falhas reais, métricas por etapa (recuperação, decisão de tool, resposta) e LLM como juiz com cautela.

· 10 min · Lucas Souza
5 padrões de prompt que sobem o sinal do code review com LLM de 12% pra 67%
Tutoriais

5 padrões de prompt que sobem o sinal do code review com LLM de 12% pra 67%

Bot de code review que comenta "considere adicionar testes" em todo PR vira meme rápido. Cinco padrões — diff-anchored, severity gate, tool use antes do palpite, citation obrigatória e self-grading com threshold — sobem o signal ratio acima de 60% e mantêm o time confiando no review. Inclui workflow Laravel pronto.

· 14 min · Lucas Souza
Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo
Tutoriais

Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo

Todo PR abre, o bot comenta a mesma coisa: considere adicionar testes, refatore isso, verifique aquilo. Em duas semanas o time muta o canal. Code review com IA não é problema de modelo, é problema de filtro. Neste post: prompt em três camadas, ferramentas que validam antes de palpitar, scoring de confiança 0 a 100 com threshold de 80, workflow Laravel + Claude no GitHub Actions pronto para colar e uma métrica honesta de precision e recall do bot.

· 15 min · Lucas Souza
Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)
Tutoriais

Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)

LLM-as-judge é o atalho que todo time de IA usa pra escalar evals. Mas tem três armadilhas que silenciosamente invalidam o pipeline: self-preference, position e verbosity bias, e calibração ausente. Cobrimos os três padrões de prompt para grader (rubric, reference, pairwise) e como blindar contra cada erro com mitigação concreta.

· 12 min · Lucas Souza
Do prompt frágil ao sistema confiável: pipeline de eval contínuo para prompts em produção
Tutoriais

Do prompt frágil ao sistema confiável: pipeline de eval contínuo para prompts em produção

Trocou o modelo, mudou uma frase no system, ajustou um exemplo, e 30% dos casos regrediram em silêncio. Pipeline de eval contínuo no CI resolve isso. Dataset versionado, runner em cada PR, gate de qualidade que barra merge. Mão na massa com Promptfoo e GitHub Actions.

· 10 min · Lucas Souza
Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra
Tutoriais

Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra

Funciona no happy path, mas e quando o usuário manda emoji, idioma misto e SQL injection? Em vez de rezar, monte um dataset com cinquenta casos adversariais, rode evals automatizadas e meça pass rate, custo e latência a cada iteração. É assim que prompt vira engenharia.

· 10 min · Lucas Souza
Multi-agent com Claude: separando search, judge e writer (e quando isso é overengineering)
Tutoriais

Multi-agent com Claude: separando search, judge e writer (e quando isso é overengineering)

Quando vale a pena quebrar o agente único em sub-agentes especializados (search, judge, writer) e quando isso vira complexidade desnecessária. Padrão de orquestração com Claude, custo real em tokens e quando voltar para single-agent.

· 11 min · Lucas Souza
Sintetizando reviews sem enviesar: como resumir sentimento real em meio a manipulação
Tutoriais

Sintetizando reviews sem enviesar: como resumir sentimento real em meio a manipulação

Joga 8 mil reviews no Claude e pede para resumir. O resumo sai bonito e enganoso. Estrelas mentem, LLM supergeneraliza e a base costuma estar contaminada por manipulação. Este post constrói um pipeline em quatro estágios (saneamento, amostragem estratificada, síntese map-reduce e auditoria) para resumir centenas de reviews sem mascarar crítica real. Útil para UX entender onde o produto dói e para compliance dormir tranquilo sob a nova regra da FTC.

· 10 min · Lucas Souza
LLM-as-a-Judge: avaliação automatizada do seu agente de ofertas sem abrir planilha
Tutoriais

LLM-as-a-Judge: avaliação automatizada do seu agente de ofertas sem abrir planilha

Como montar um juiz LLM que pontua cada resposta do agente contra uma rubrica objetiva: preço correto, link válido, sentimento de review coerente. Você sai do achismo e transforma iteração em ciclo mensurável.

· 11 min · Lucas Souza

VirguIA

beer & code assistant

conectando…

Não foi possível iniciar o chat agora.

tocando