Tutoriais

Tutoriais

Guias práticos passo a passo sobre Laravel, Filament e ecossistema PHP.

Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)
Tutoriais

Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)

LLM-as-judge é o atalho que todo time de IA usa pra escalar evals. Mas tem três armadilhas que silenciosamente invalidam o pipeline: self-preference, position e verbosity bias, e calibração ausente. Cobrimos os três padrões de prompt para grader (rubric, reference, pairwise) e como blindar contra cada erro com mitigação concreta.

· 12 min · Lucas Souza
Engenharia de contexto vence prompt engineering: por que o que você NÃO coloca no prompt importa mais
Tutoriais

Engenharia de contexto vence prompt engineering: por que o que você NÃO coloca no prompt importa mais

Karpathy e Lütke dispararam em 2025: o nome certo não é prompt engineering, é engenharia de contexto. Três experimentos lado a lado da mesma tarefa mostram, com tokens, dólar e testes passando, por que o que você NÃO coloca no prompt importa mais que o que coloca.

· 11 min · Lucas Souza
Specs como contrato com o agente: rodei a mesma spec em 4 LLMs pra ver quanto convergem
Tutoriais

Specs como contrato com o agente: rodei a mesma spec em 4 LLMs pra ver quanto convergem

Experimento prático rodando a mesma spec em Claude Sonnet 4.6, GPT-5.1, Gemini 2.5 Pro e Llama 4 Maverick. Mede convergência via TSED e testes passados. Spec vaga deu 0,34 de similaridade entre pares; spec estruturada deu 0,78. A spec importa mais que o modelo.</excerpt> <parameter name="tags">["spec-driven-development", "sdd", "llm", "evals", "claude", "agentes", "requisitos", "testing"]

· 9 min · Lucas Souza
Do prompt frágil ao sistema confiável: pipeline de eval contínuo para prompts em produção
Tutoriais

Do prompt frágil ao sistema confiável: pipeline de eval contínuo para prompts em produção

Trocou o modelo, mudou uma frase no system, ajustou um exemplo, e 30% dos casos regrediram em silêncio. Pipeline de eval contínuo no CI resolve isso. Dataset versionado, runner em cada PR, gate de qualidade que barra merge. Mão na massa com Promptfoo e GitHub Actions.

· 10 min · Lucas Souza
SDD vs BMAD vs Vibe Coding: qual metodologia faz sentido para seu time
Tutoriais

SDD vs BMAD vs Vibe Coding: qual metodologia faz sentido para seu time

Para de discutir "qual é melhor" e comece a discutir "qual cabe no seu contexto". Matriz de decisão com quatro eixos que mapeia SDD, BMAD e Vibe Coding ao quadrante onde performam.

· 10 min · Lucas Souza
Hooks, Slash Commands e MCPs: a anatomia de um harness produtivo
Tutoriais

Hooks, Slash Commands e MCPs: a anatomia de um harness produtivo

Claude Code não é só um modelo, é um harness com três pontos de extensão (hooks, slash commands e MCPs). Cada um resolve um problema diferente. Esse post disseca peça por peça, com exemplos reais de configuração que rodam todo dia em projetos Laravel.

· 10 min · Lucas Souza
Versionando specs: como manter documentação viva sem virar mais um README abandonado
Tutoriais

Versionando specs: como manter documentação viva sem virar mais um README abandonado

Tripé Git + spec + ADR (Architecture Decision Records) que mantém doc viva ao lado do código, com hooks de pré-commit que travam o drift. Estrutura mínima, scripts de validação e configuração pre-commit prontos para colar — sem precisar contratar engenheiro de documentação.

· 5 min · Lucas Souza
RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente
Tutoriais

RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente

Vector-only, hybrid (BM25 + vetor + RRF) e o stack completo com SQL e reranker como tools separadas: comparação prática com benchmarks reais e código de produção.

· 11 min · Lucas Souza
Subagentes na prática: dividindo contexto entre Claudes para não estourar o token budget
Tutoriais

Subagentes na prática: dividindo contexto entre Claudes para não estourar o token budget

Padrão pesquisador, executor e validador na prática. Por que três Claudes especializados batem um agente gigante em qualidade e travam menos no limite de contexto. Com números reais publicados pela Anthropic.

· 10 min · Lucas Souza
Do legado ao SDD: refatorando um módulo bagunçado a partir de uma specification reversa
Tutoriais

Do legado ao SDD: refatorando um módulo bagunçado a partir de uma specification reversa

SDD nasceu pensando em greenfield. A maioria dos tutoriais começa em mkdir projeto-novo e ignora quem está em projeto maduro. Reverse-spec resolve isso: o agente lê o código existente, gera a specification, humano revisa, e a partir daí o ciclo SDD clássico roda. Vou mostrar 4 passos práticos pra aplicar a técnica num módulo legado real, sem reescrever do zero e sem precisar esperar comando oficial em ferramenta nenhuma.

· 10 min · Lucas Souza
BMAD-Method para quem já usa SDD: onde acerta e onde adiciona ruído
Tutoriais

BMAD-Method para quem já usa SDD: onde acerta e onde adiciona ruído

BMAD promete um time agil de IA com personas para cada papel. Em termos de SDD, e Spec-Driven com mais cerimonia. Mapeio onde isso vale o overhead e onde so vira cerimonia que atrasa entrega.

· 8 min · Lucas Souza
Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra
Tutoriais

Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra

Funciona no happy path, mas e quando o usuário manda emoji, idioma misto e SQL injection? Em vez de rezar, monte um dataset com cinquenta casos adversariais, rode evals automatizadas e meça pass rate, custo e latência a cada iteração. É assim que prompt vira engenharia.

· 10 min · Lucas Souza

VirguIA

beer & code assistant

conectando…

Não foi possível iniciar o chat agora.

tocando