#Performance

Reasoning models em produção: quando o trade de latência vale a pena
Notícias

Reasoning models em produção: quando o trade de latência vale a pena

Reasoning model resolve o que modelo normal não resolve. Em troca: três vezes mais latência, cinco vezes mais tokens. Em maio/2026, com o3, DeepSeek-R1 e Claude Sonnet 4.5 estáveis, dá pra falar com número na mesa: quando vale o trade e qual pattern de roteador separa o time que opera bem do time que estourou o budget no terceiro dia.

· 9 min · Lucas Souza
Plan-and-Execute: o pattern que cortou 90% do custo do nosso agente
Notícias

Plan-and-Execute: o pattern que cortou 90% do custo do nosso agente

Agente nosso queimava US$ 2.300/mês rodando Claude Opus em loop. Trocamos por Plan-and-Execute: uma chamada cara que planeja, N chamadas baratas que executam. Conta nova: US$ 220/mês com a mesma qualidade. Planilha de tokens, código Laravel (PlanJob + ExecuteStep) e o tipo de fluxo onde esse pattern quebra.

· 10 min · Lucas Souza
Filas no Laravel em 2026: Horizon, Redis e tracing distribuído
Tutoriais

Filas no Laravel em 2026: Horizon, Redis e tracing distribuído

Job de fila em 2026 chama LLM, espera 90s, gasta dólar em token e ainda pode falhar silencioso. Aqui vai o desenho de stack que segura: Horizon, Redis 7, filas separadas por SLA, retry com idempotency key e tracing OpenTelemetry de ponta a ponta.

· 11 min · Lucas Souza
Deploy de Laravel em produção em 2026: Forge, Cloud, Sail ou Kubernetes?
Tutoriais

Deploy de Laravel em produção em 2026: Forge, Cloud, Sail ou Kubernetes?

Quatro caminhos pra rodar Laravel em produção em 2026 (Forge, Cloud, Sail+VPS ou Kubernetes) comparados por cenário, com a armadilha que mata seu banco e o checklist de 18 itens antes do go-live.

· 14 min · Lucas Souza
LLM local vs API em 2026: a planilha real de 90 dias rodando os dois lado a lado
Notícias

LLM local vs API em 2026: a planilha real de 90 dias rodando os dois lado a lado

Chatbot interno de TI, 12 mil chamadas/dia, p95 abaixo de 2 segundos, dados sensíveis. Stack A com Llama 3.3 70B em duas A100 contra Stack B com Claude Haiku 4.5 via API. Planilha de seis baldes mês a mês, break-even e veredito por persona.

· 10 min · Lucas Souza
Quando NÃO usar Agentic Code: 8 cenários onde o agente é prejuízo
Notícias

Quando NÃO usar Agentic Code: 8 cenários onde o agente é prejuízo

Curva de hype joga todo mundo no extremo. Aqui está a lista honesta de 8 cenários onde, em 2026, o agente custa mais caro, demora mais e ainda erra mais que o time fazendo na mão, com explicação técnica, benchmarks e dor de produção.

· 12 min · Lucas Souza
RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente
Tutoriais

RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente

Vector-only, hybrid (BM25 + vetor + RRF) e o stack completo com SQL e reranker como tools separadas: comparação prática com benchmarks reais e código de produção.

· 11 min · Lucas Souza
Programmatic Tool Calling: por que executar suas ferramentas em código é o futuro do agente
Tutoriais

Programmatic Tool Calling: por que executar suas ferramentas em código é o futuro do agente

Function calling clássico vai virar legado. Programmatic tool calling do Claude troca o loop turno-a-turno por código Python no sandbox: 37% menos tokens, paralelismo nativo via asyncio.gather e composição em um único script. A gente compara latência, tokens, debug, e fecha com um agente que escreve o próprio orquestrador.

· 11 min · Lucas Souza
Cortando custo em 80%: prompt caching, batch e quando NÃO usar reranker
Tutoriais

Cortando custo em 80%: prompt caching, batch e quando NÃO usar reranker

A maioria dos agentes em produção sangra dinheiro em chamada repetida pra LLM. Três alavancas que cortam custo: prompt caching no system prompt do harness, Batch API pra workloads assíncronos e a decisão fria de quando o reranker é só caro e lento.

· 10 min · Lucas Souza
Tracking 24/7: do agente que responde "quanto custa?" ao agente que avisa "baixou agora"
Tutoriais

Tracking 24/7: do agente que responde "quanto custa?" ao agente que avisa "baixou agora"

Como evoluir do agente que responde "quanto custa?" para o agente que avisa "baixou agora": cron, webhook, idempotência, deduplicação de alerta e janelas de monitoramento sem estourar custo. Com snippets em Laravel e o que muda no harness quando o agente passa a viver sozinho.

· 5 min · Lucas Souza
Cross-encoder reranker: o componente que mais eleva qualidade do seu agente por dólar
Tutoriais

Cross-encoder reranker: o componente que mais eleva qualidade do seu agente por dólar

Retrieval traz 100 candidatos, reranker escolhe os 10 certos. Entenda o trade-off latência x precisão, quando rerankar 50 vs. 200 documentos e por que cross-encoder é o investimento de melhor ROI antes de trocar para um LLM mais caro.

· 10 min · Lucas Souza
O Laravel é lento? Entenda por que sua aplicação não escala
Tutoriais

O Laravel é lento? Entenda por que sua aplicação não escala

Entenda por que o Laravel não é o culpado pela lentidão das suas aplicações. Neste artigo, mostramos como o conceito de SARGABLE afeta diretamente a performance das suas queries, por que funções como whereDate() destroem índices e como resolver isso com whereBetween().

· 3 min · Lucas Souza

VirguIA

beer & code assistant

conectando…

Não foi possível iniciar o chat agora.

tocando