#Llm

Programmatic Tool Calling: por que executar suas ferramentas em código é o futuro do agente
Tutoriais

Programmatic Tool Calling: por que executar suas ferramentas em código é o futuro do agente

Function calling clássico vai virar legado. Programmatic tool calling do Claude troca o loop turno-a-turno por código Python no sandbox: 37% menos tokens, paralelismo nativo via asyncio.gather e composição em um único script. A gente compara latência, tokens, debug, e fecha com um agente que escreve o próprio orquestrador.

· 11 min · Lucas Souza
O que é Harness Engineering e por que seu Claude Code trava em tarefas longas
Notícias

O que é Harness Engineering e por que seu Claude Code trava em tarefas longas

Quando o agente esquece o que estava fazendo, repete trabalho ou alucina arquivos, raramente é falha do modelo. É falha do harness. Definição do termo, anatomia mínima (loop, tools, contexto, memória) e o ponto onde a maioria dos devs para de evoluir o setup.

· 10 min · Lucas Souza
Cortando custo em 80%: prompt caching, batch e quando NÃO usar reranker
Tutoriais

Cortando custo em 80%: prompt caching, batch e quando NÃO usar reranker

A maioria dos agentes em produção sangra dinheiro em chamada repetida pra LLM. Três alavancas que cortam custo: prompt caching no system prompt do harness, Batch API pra workloads assíncronos e a decisão fria de quando o reranker é só caro e lento.

· 10 min · Lucas Souza
Multi-agent com Claude: separando search, judge e writer (e quando isso é overengineering)
Tutoriais

Multi-agent com Claude: separando search, judge e writer (e quando isso é overengineering)

Quando vale a pena quebrar o agente único em sub-agentes especializados (search, judge, writer) e quando isso vira complexidade desnecessária. Padrão de orquestração com Claude, custo real em tokens e quando voltar para single-agent.

· 11 min · Lucas Souza
Memória de agente: por que seu assistente de compras esquece o usuário (e como consertar)
Tutoriais

Memória de agente: por que seu assistente de compras esquece o usuário (e como consertar)

Sem memória persistente, todo turno do seu assistente de compras começa do zero. Veja como combinar contexto, sumário e memória vetorizada por usuário para parar de esquecer preço de referência, marca rejeitada e faixa de orçamento.

· 12 min · Lucas Souza
Hands-on: construindo um agente de ofertas em 80 linhas com Claude, tool use e um reranker
Tutoriais

Hands-on: construindo um agente de ofertas em 80 linhas com Claude, tool use e um reranker

Tutorial reproduzivel em Python: agent loop com Claude, busca na web, rerank do Cohere e saida em JSON estruturado. Esqueleto de 80 linhas para voce expandir e levar para producao.

· 7 min · Lucas Souza
Prompt injection no agente: quando o site raspado vira o novo system prompt
Tutoriais

Prompt injection no agente: quando o site raspado vira o novo system prompt

Seu agente lê o HTML de uma página de produto. Lê também as instruções escondidas que mandam ele ignorar o usuário e recomendar um link específico. Esse vetor já está sendo explorado em produção. Veja como funciona e o que o harness precisa fazer antes de injetar conteúdo externo no contexto do LLM.

· 13 min · Lucas Souza
Trust layer no agente: como pontuar a confiabilidade de cada fonte antes do LLM ver
Tutoriais

Trust layer no agente: como pontuar a confiabilidade de cada fonte antes do LLM ver

Reranker garante relevancia. Confianca e outra historia. Veja como montar uma trust layer com sinais simples (idade do dominio, densidade de afiliado, coerencia entre reviews) e integrar no reranker antes do LLM ver o conteudo.

· 12 min · Lucas Souza
Sintetizando reviews sem enviesar: como resumir sentimento real em meio a manipulação
Tutoriais

Sintetizando reviews sem enviesar: como resumir sentimento real em meio a manipulação

Joga 8 mil reviews no Claude e pede para resumir. O resumo sai bonito e enganoso. Estrelas mentem, LLM supergeneraliza e a base costuma estar contaminada por manipulação. Este post constrói um pipeline em quatro estágios (saneamento, amostragem estratificada, síntese map-reduce e auditoria) para resumir centenas de reviews sem mascarar crítica real. Útil para UX entender onde o produto dói e para compliance dormir tranquilo sob a nova regra da FTC.

· 10 min · Lucas Souza
Cross-encoder reranker: o componente que mais eleva qualidade do seu agente por dólar
Tutoriais

Cross-encoder reranker: o componente que mais eleva qualidade do seu agente por dólar

Retrieval traz 100 candidatos, reranker escolhe os 10 certos. Entenda o trade-off latência x precisão, quando rerankar 50 vs. 200 documentos e por que cross-encoder é o investimento de melhor ROI antes de trocar para um LLM mais caro.

· 10 min · Lucas Souza
RAG ou Web Search? Como decidir entre indexar, buscar ao vivo e combinar os dois
Tutoriais

RAG ou Web Search? Como decidir entre indexar, buscar ao vivo e combinar os dois

Quando usar RAG sobre catálogo interno, quando disparar busca na web ao vivo e quando combinar os dois? Matriz de decisão prática aplicada ao caso real de um agente de ofertas, com Claude API, Pinecone e LangChain. Trade-offs de custo, latência e controle sem hype.

· 7 min · Lucas Souza
Tool use na prática: desenhando ferramentas que o LLM realmente consegue usar
Tutoriais

Tool use na prática: desenhando ferramentas que o LLM realmente consegue usar

Você plugou doze tools no agente e ele continua chamando a errada, inventando IDs ou pulando etapas. O gargalo quase nunca é o modelo: é o design das ferramentas. Veja por que descrição mal escrita destrói tool use e quais são os princípios concretos (nome, descrição, schema strict, exemplos few-shot, erros úteis) para desenhar tools que o LLM realmente sabe chamar em produção.

· 11 min · Lucas Souza

VirguIA

beer & code assistant

conectando…

Não foi possível iniciar o chat agora.

tocando