#Performance

01 #performance · #openai

OpenAI Codex bug: ele grava 640 TB/ano e pode matar seu SSD em menos de 1 ano

O Codex tem um sink de log em SQLite que roda em TRACE global e grava ~640 TB/ano, o suficiente pra queimar a vida útil de um SSD de 1 TB em menos de um ano. E ele ignora o RUST_LOG. Entenda a causa, diagnostique e pare o sangramento com uma linha.

23 Jun · 9 min ›

02 #performance · #openai

Reasoning models em produção: quando o trade de latência vale a pena

Reasoning model resolve o que modelo normal não resolve. Em troca: três vezes mais latência, cinco vezes mais tokens. Em maio/2026, com o3, DeepSeek-R1 e Claude Sonnet 4.5 estáveis, dá pra falar com número na mesa: quando vale o trade e qual pattern de roteador separa o time que opera bem do time que estourou o budget no terceiro dia.

30 Mai · 9 min ›

03 #performance · #ai-agents

Plan-and-Execute: o pattern que cortou 90% do custo do nosso agente

Agente nosso queimava US$ 2.300/mês rodando Claude Opus em loop. Trocamos por Plan-and-Execute: uma chamada cara que planeja, N chamadas baratas que executam. Conta nova: US$ 220/mês com a mesma qualidade. Planilha de tokens, código Laravel (PlanJob + ExecuteStep) e o tipo de fluxo onde esse pattern quebra.

29 Mai · 10 min ›

04 #laravel · #performance

Filas no Laravel em 2026: Horizon, Redis e tracing distribuído

Job de fila em 2026 chama LLM, espera 90s, gasta dólar em token e ainda pode falhar silencioso. Aqui vai o desenho de stack que segura: Horizon, Redis 7, filas separadas por SLA, retry com idempotency key e tracing OpenTelemetry de ponta a ponta.

27 Mai · 11 min ›

05 #laravel · #performance

Deploy de Laravel em produção em 2026: Forge, Cloud, Sail ou Kubernetes?

Quatro caminhos pra rodar Laravel em produção em 2026 (Forge, Cloud, Sail+VPS ou Kubernetes) comparados por cenário, com a armadilha que mata seu banco e o checklist de 18 itens antes do go-live.

25 Mai · 14 min ›

06 #performance · #openai

LLM local vs API em 2026: a planilha real de 90 dias rodando os dois lado a lado

Chatbot interno de TI, 12 mil chamadas/dia, p95 abaixo de 2 segundos, dados sensíveis. Stack A com Llama 3.3 70B em duas A100 contra Stack B com Claude Haiku 4.5 via API. Planilha de seis baldes mês a mês, break-even e veredito por persona.

24 Mai · 10 min ›

07 #performance · #ia

Quando NÃO usar Agentic Code: 8 cenários onde o agente é prejuízo

Curva de hype joga todo mundo no extremo. Aqui está a lista honesta de 8 cenários onde, em 2026, o agente custa mais caro, demora mais e ainda erra mais que o time fazendo na mão, com explicação técnica, benchmarks e dor de produção.

13 Mai · 12 min ›

08 #performance · #ia

RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente

Vector-only, hybrid (BM25 + vetor + RRF) e o stack completo com SQL e reranker como tools separadas: comparação prática com benchmarks reais e código de produção.

06 Mai · 11 min ›

09 #performance · #ia

Programmatic Tool Calling: por que executar suas ferramentas em código é o futuro do agente

Function calling clássico vai virar legado. Programmatic tool calling do Claude troca o loop turno-a-turno por código Python no sandbox: 37% menos tokens, paralelismo nativo via asyncio.gather e composição em um único script. A gente compara latência, tokens, debug, e fecha com um agente que escreve o próprio orquestrador.

03 Mai · 11 min ›

10 #performance · #openai

Cortando custo em 80%: prompt caching, batch e quando NÃO usar reranker

A maioria dos agentes em produção sangra dinheiro em chamada repetida pra LLM. Três alavancas que cortam custo: prompt caching no system prompt do harness, Batch API pra workloads assíncronos e a decisão fria de quando o reranker é só caro e lento.

01 Mai · 10 min ›

11 #laravel · #performance

Tracking 24/7: do agente que responde "quanto custa?" ao agente que avisa "baixou agora"

Como evoluir do agente que responde "quanto custa?" para o agente que avisa "baixou agora": cron, webhook, idempotência, deduplicação de alerta e janelas de monitoramento sem estourar custo. Com snippets em Laravel e o que muda no harness quando o agente passa a viver sozinho.

01 Mai · 5 min ›

12 #performance · #openai

Cross-encoder reranker: o componente que mais eleva qualidade do seu agente por dólar

Retrieval traz 100 candidatos, reranker escolhe os 10 certos. Entenda o trade-off latência x precisão, quando rerankar 50 vs. 200 documentos e por que cross-encoder é o investimento de melhor ROI antes de trocar para um LLM mais caro.

27 Abr · 10 min ›