#Harness
LLM local vs API em 2026: a planilha real de 90 dias rodando os dois lado a lado
Chatbot interno de TI, 12 mil chamadas/dia, p95 abaixo de 2 segundos, dados sensíveis. Stack A com Llama 3.3 70B em duas A100 contra Stack B com Claude Haiku 4.5 via API. Planilha de seis baldes mês a mês, break-even e veredito por persona.
Quanto custa um agente em produção em 2026: planilha real depois de 6 meses
A calculadora da OpenAI mente. Pricing de token é só um item de linha; a fatura real de um agente em produção tem seis baldes: inferência, eval em runtime, observability, infra, pessoas, outros. Este post abre o balancete de 6 meses, mês a mês, com números e fontes. No fim, build vs buy: quando vale construir e quando você está pagando para reinventar o Cursor.
Quando NÃO usar Agentic Code: 8 cenários onde o agente é prejuízo
Curva de hype joga todo mundo no extremo. Aqui está a lista honesta de 8 cenários onde, em 2026, o agente custa mais caro, demora mais e ainda erra mais que o time fazendo na mão, com explicação técnica, benchmarks e dor de produção.
AI Engineer no Brasil: as 6 senioridades que o mercado realmente paga (e o que cada uma entrega)
RH pede 5 anos em IA agêntica para um campo que não tem 5 anos. A escala real é outra. Mapa de 6 senioridades de AI Engineer no Brasil em 2026 com entregáveis por nível, faixa salarial e o critério de promoção que recrutador respeita.
TDD com agentes: como escrever testes que sobrevivem ao código gerado
Agente deletou o teste pra fazer passar. Aconteceu, vai acontecer. METR documentou em 2025 modelos modificando timers e graders pra parecer rápido. TDD com agente exige inversão: o teste é a especificação executável, quem escreve o teste manda no agente.
Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo
Todo PR abre, o bot comenta a mesma coisa: considere adicionar testes, refatore isso, verifique aquilo. Em duas semanas o time muta o canal. Code review com IA não é problema de modelo, é problema de filtro. Neste post: prompt em três camadas, ferramentas que validam antes de palpitar, scoring de confiança 0 a 100 com threshold de 80, workflow Laravel + Claude no GitHub Actions pronto para colar e uma métrica honesta de precision e recall do bot.
Os 4 níveis de autonomia em Agentic Code: do autocompletar ao agente que faz deploy sozinho
Quem roda agentes em código de verdade já entendeu que a régua não é se o agente faz, mas quem aprova, quem reverte e quem audita cada ação. Mapa prático de quatro níveis de autonomia em agentic code, do tab completion ao agente que abre PR sozinho em CI, com os gates de engenharia que sustentam cada degrau.
Portfólio de AI Engineer: 5 projetos que abrem porta sem precisar de mestrado
Recrutador olha 11 segundos. Notebook de fine-tuning de Llama no Colab não convence ninguém. Cinco projetos pequenos que provam skill real de AI engineer e cabem em 1 a 3 fins de semana cada.
Glossário do AI Engineer 2026: 30 termos que todo engenheiro precisa saber (sem hype)
Dicionário de campo com 30 termos que aparecem em todo projeto sério de IA em 2026: núcleo, capacidades, padrões agênticos, recuperação, engenharia e operação. Cada termo em uma linha clara, com um exemplo concreto e zero hype. Mais mini-FAQ com 10 perguntas que economizam reunião.
Hands-on: meu primeiro Pull Request 100% gerado por agente em Laravel (com diff e revisão)
Liguei o agente, fui tomar café e voltei 43 minutos depois com um PR de 380 linhas em 9 arquivos. Case study real com harness Laravel + Claude Agent SDK + sandbox isolado, a task escolhida, o loop cronometrado de 43 min em 12 iterações, o diff comentado, os 3 bugs que escaparam pro code review humano, custo total em USD e o veredito sobre soltar isso em produção. Repositório público no final.
Agentic Code vs Vibe Coding vs SDD: a tabela definitiva pra escolher por contexto
Três paradigmas, três comunidades brigando no Twitter, e zero clareza sobre quando cada um performa. Definição operacional de vibe coding, agentic engineering e SDD, tabela com oito critérios e árvore de decisão pronta pra colar na wiki do time.
Anatomia de um harness em produção: as 6 camadas que separam POC de sistema confiável
O harness do tutorial roda. Em produção, ele morre na primeira semana. Esse post abre o capô do que entra entre o request e o response quando o agente está vivo 24 por 7: gate, roteador, contexto, loop com budget, pós-processamento e telemetria. Diagrama, código e referências reais para sair do POC e chegar num sistema confiável.