#Llm
LLM local vs API em 2026: a planilha real de 90 dias rodando os dois lado a lado
Chatbot interno de TI, 12 mil chamadas/dia, p95 abaixo de 2 segundos, dados sensíveis. Stack A com Llama 3.3 70B em duas A100 contra Stack B com Claude Haiku 4.5 via API. Planilha de seis baldes mês a mês, break-even e veredito por persona.
Google I/O 2026: 7 anúncios que mudam o trabalho do AI engineer brasileiro
Os sete movimentos de plataforma do Google I/O 2026 que mudam o trabalho do AI engineer brasileiro, com comparativo Gemini 3.5 Flash x Sonnet 4.5 x GPT-5.5 em três tarefas backend reais e o que ignorar do hype enterprise.
Quanto custa um agente em produção em 2026: planilha real depois de 6 meses
A calculadora da OpenAI mente. Pricing de token é só um item de linha; a fatura real de um agente em produção tem seis baldes: inferência, eval em runtime, observability, infra, pessoas, outros. Este post abre o balancete de 6 meses, mês a mês, com números e fontes. No fim, build vs buy: quando vale construir e quando você está pagando para reinventar o Cursor.
Glossário do AI Engineer 2026: 30 termos que todo engenheiro precisa saber (sem hype)
Dicionário de campo com 30 termos que aparecem em todo projeto sério de IA em 2026: núcleo, capacidades, padrões agênticos, recuperação, engenharia e operação. Cada termo em uma linha clara, com um exemplo concreto e zero hype. Mais mini-FAQ com 10 perguntas que economizam reunião.
Agentic Code vs Vibe Coding vs SDD: a tabela definitiva pra escolher por contexto
Três paradigmas, três comunidades brigando no Twitter, e zero clareza sobre quando cada um performa. Definição operacional de vibe coding, agentic engineering e SDD, tabela com oito critérios e árvore de decisão pronta pra colar na wiki do time.
Engenharia de IA não é Data Science: 7 diferenças que separam disciplina de hype
Recrutador chama as duas de "vaga de IA". CTO que confunde uma com a outra paga seis meses de retrabalho. Põe lado a lado data science e engenharia de IA em sete eixos: foco, métrica, stack, output, tempo de feedback, quem migra mais rápido e por que essa confusão atrasa carreira.
Engenheiro de IA em 2026: o que faz, e por que não é só usar ChatGPT no trabalho
Em 2024 era cargo inventado pelo LinkedIn. Em 2026 é o sênior mais disputado dos EUA. O que faz um Engenheiro de IA na prática: as 5 entregas em qualquer JD sênior, o stack típico (LLM API, harness, vector store, evals, observability) e por que a maioria veio de backend, não de Data Science.
Model Graders: usando LLMs para avaliar LLMs (e os 3 erros que invalidam o seu eval)
LLM-as-judge é o atalho que todo time de IA usa pra escalar evals. Mas tem três armadilhas que silenciosamente invalidam o pipeline: self-preference, position e verbosity bias, e calibração ausente. Cobrimos os três padrões de prompt para grader (rubric, reference, pairwise) e como blindar contra cada erro com mitigação concreta.
Engenharia de contexto vence prompt engineering: por que o que você NÃO coloca no prompt importa mais
Karpathy e Lütke dispararam em 2025: o nome certo não é prompt engineering, é engenharia de contexto. Três experimentos lado a lado da mesma tarefa mostram, com tokens, dólar e testes passando, por que o que você NÃO coloca no prompt importa mais que o que coloca.
Specs como contrato com o agente: rodei a mesma spec em 4 LLMs pra ver quanto convergem
Experimento prático rodando a mesma spec em Claude Sonnet 4.6, GPT-5.1, Gemini 2.5 Pro e Llama 4 Maverick. Mede convergência via TSED e testes passados. Spec vaga deu 0,34 de similaridade entre pares; spec estruturada deu 0,78. A spec importa mais que o modelo.</excerpt> <parameter name="tags">["spec-driven-development", "sdd", "llm", "evals", "claude", "agentes", "requisitos", "testing"]
RAG não é só vector search: combinando busca semântica, SQL e tools no mesmo agente
Vector-only, hybrid (BM25 + vetor + RRF) e o stack completo com SQL e reranker como tools separadas: comparação prática com benchmarks reais e código de produção.
Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra
Funciona no happy path, mas e quando o usuário manda emoji, idioma misto e SQL injection? Em vez de rezar, monte um dataset com cinquenta casos adversariais, rode evals automatizadas e meça pass rate, custo e latência a cada iteração. É assim que prompt vira engenharia.