#Performance
Reasoning models em produção: quando o trade de latência vale a pena
Reasoning model resolve o que modelo normal não resolve. Em troca: três vezes mais latência, cinco vezes mais tokens. Em maio/2026, com o3, DeepSeek-R1 e Claude Sonnet 4.5 estáveis, dá pra falar com número na mesa: quando vale o trade e qual pattern de roteador separa o time que opera bem do time que estourou o budget no terceiro dia.
Plan-and-Execute: o pattern que cortou 90% do custo do nosso agente
Agente nosso queimava US$ 2.300/mês rodando Claude Opus em loop. Trocamos por Plan-and-Execute: uma chamada cara que planeja, N chamadas baratas que executam. Conta nova: US$ 220/mês com a mesma qualidade. Planilha de tokens, código Laravel (PlanJob + ExecuteStep) e o tipo de fluxo onde esse pattern quebra.
Filas no Laravel em 2026: Horizon, Redis e tracing distribuído
Job de fila em 2026 chama LLM, espera 90s, gasta dólar em token e ainda pode falhar silencioso. Aqui vai o desenho de stack que segura: Horizon, Redis 7, filas separadas por SLA, retry com idempotency key e tracing OpenTelemetry de ponta a ponta.
Deploy de Laravel em produção em 2026: Forge, Cloud, Sail ou Kubernetes?
Quatro caminhos pra rodar Laravel em produção em 2026 (Forge, Cloud, Sail+VPS ou Kubernetes) comparados por cenário, com a armadilha que mata seu banco e o checklist de 18 itens antes do go-live.
LLM local vs API em 2026: a planilha real de 90 dias rodando os dois lado a lado
Chatbot interno de TI, 12 mil chamadas/dia, p95 abaixo de 2 segundos, dados sensíveis. Stack A com Llama 3.3 70B em duas A100 contra Stack B com Claude Haiku 4.5 via API. Planilha de seis baldes mês a mês, break-even e veredito por persona.
Quando NÃO usar Agentic Code: 8 cenários onde o agente é prejuízo
Curva de hype joga todo mundo no extremo. Aqui está a lista honesta de 8 cenários onde, em 2026, o agente custa mais caro, demora mais e ainda erra mais que o time fazendo na mão, com explicação técnica, benchmarks e dor de produção.
RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente
Vector-only, hybrid (BM25 + vetor + RRF) e o stack completo com SQL e reranker como tools separadas: comparação prática com benchmarks reais e código de produção.
Programmatic Tool Calling: por que executar suas ferramentas em código é o futuro do agente
Function calling clássico vai virar legado. Programmatic tool calling do Claude troca o loop turno-a-turno por código Python no sandbox: 37% menos tokens, paralelismo nativo via asyncio.gather e composição em um único script. A gente compara latência, tokens, debug, e fecha com um agente que escreve o próprio orquestrador.
Cortando custo em 80%: prompt caching, batch e quando NÃO usar reranker
A maioria dos agentes em produção sangra dinheiro em chamada repetida pra LLM. Três alavancas que cortam custo: prompt caching no system prompt do harness, Batch API pra workloads assíncronos e a decisão fria de quando o reranker é só caro e lento.
Tracking 24/7: do agente que responde "quanto custa?" ao agente que avisa "baixou agora"
Como evoluir do agente que responde "quanto custa?" para o agente que avisa "baixou agora": cron, webhook, idempotência, deduplicação de alerta e janelas de monitoramento sem estourar custo. Com snippets em Laravel e o que muda no harness quando o agente passa a viver sozinho.
Cross-encoder reranker: o componente que mais eleva qualidade do seu agente por dólar
Retrieval traz 100 candidatos, reranker escolhe os 10 certos. Entenda o trade-off latência x precisão, quando rerankar 50 vs. 200 documentos e por que cross-encoder é o investimento de melhor ROI antes de trocar para um LLM mais caro.
O Laravel é lento? Entenda por que sua aplicação não escala
Entenda por que o Laravel não é o culpado pela lentidão das suas aplicações. Neste artigo, mostramos como o conceito de SARGABLE afeta diretamente a performance das suas queries, por que funções como whereDate() destroem índices e como resolver isso com whereBetween().