#Tokens
Reduzir custo de API de IA: os vazamentos de token mais comuns
Sua conta de API de IA veio 4x maior do que o previsto? Antes de cortar feature, vamos achar os cinco vazamentos de token mais comuns em produção e o conserto de cada um.
Estourou o limite de tokens do ChatGPT: por que a IA esquece e como resolver
A IA não esquece por burrice. É a janela de contexto. Entenda pela dor o limite de tokens e as quatro saídas: resumo, RAG, chunking e memória.
Claude Fable 5: 10 coisas que o Opus 4.8 não fazia bem
A Anthropic liberou o Claude Fable 5, primeiro modelo da classe Mythos para uso geral. Veja 10 tarefas reais que ele resolve e que o Opus 4.8 fazia mal ou não fazia.
Plan-and-Execute: o pattern que cortou 90% do custo do nosso agente
Agente nosso queimava US$ 2.300/mês rodando Claude Opus em loop. Trocamos por Plan-and-Execute: uma chamada cara que planeja, N chamadas baratas que executam. Conta nova: US$ 220/mês com a mesma qualidade. Planilha de tokens, código Laravel (PlanJob + ExecuteStep) e o tipo de fluxo onde esse pattern quebra.
Quanto custa um agente em produção em 2026: planilha real depois de 6 meses
A calculadora da OpenAI mente. Pricing de token é só um item de linha; a fatura real de um agente em produção tem seis baldes: inferência, eval em runtime, observability, infra, pessoas, outros. Este post abre o balancete de 6 meses, mês a mês, com números e fontes. No fim, build vs buy: quando vale construir e quando você está pagando para reinventar o Cursor.
Engenharia de contexto vence prompt engineering: por que o que você NÃO coloca no prompt importa mais
Karpathy e Lütke dispararam em 2025: o nome certo não é prompt engineering, é engenharia de contexto. Três experimentos lado a lado da mesma tarefa mostram, com tokens, dólar e testes passando, por que o que você NÃO coloca no prompt importa mais que o que coloca.
Subagentes na prática: dividindo contexto entre Claudes para não estourar o token budget
Padrão pesquisador, executor e validador na prática. Por que três Claudes especializados batem um agente gigante em qualidade e travam menos no limite de contexto. Com números reais publicados pela Anthropic.