Claude Opus 4.8: 69,2% no SWE-Bench Pro e Mesmo Preço do 4.7

A Anthropic soltou o Claude Opus 4.8 hoje, 28 de maio de 2026. E antes que você role o feed cheio de "modelo mais inteligente da história", vamos ao que interessa pra quem realmente coloca IA pra rodar: o que muda no seu agente, no seu pipeline de código e na sua conta no fim do mês.

Spoiler: não é um salto de geração. É um ajuste fino. Mas é o tipo de ajuste fino que aparece em produção — menos passos de tool calling, menos bug passando batido, e um preço que, surpreendentemente, não subiu.

Aqui a gente filtrou o anúncio inteiro e separou só o que tem impacto prático pra quem entrega.

TL;DR

O que é: Claude Opus 4.8, o novo modelo de ponta da Anthropic, focado em coding agêntico, computer-use e trabalho autônomo de longa duração.
Model ID: claude-opus-4-8.
Custo: mesmo do 4.7 — US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de saída. Fast mode 3x mais barato que antes.
Destaques: lidera SWE-Bench Pro (69,2%), 84% no Online-Mind2Web, Effort Control com três níveis e Dynamic Workflows no Claude Code.
Anúncio oficial: anthropic.com/news/claude-opus-4-8.

Os números que importam (e onde ele NÃO lidera)

Benchmark sem contexto é marketing. Então vamos olhar os que medem trabalho de verdade.

No SWE-Bench Pro — coding agêntico, o benchmark que mais se parece com resolver issue de repositório real — o Opus 4.8 lidera com 69,2%, contra 64,3% do 4.7, 58,6% do GPT-5.5 e 54,2% do Gemini 3.1 Pro. É a maior distância que a Anthropic abriu no quesito código em um tempo.

No OSWorld-Verified (computer-use de verdade, controlando um sistema operacional) ele marca 83,4%, à frente dos 78,7% do GPT-5.5 e 76,2% do Gemini 3.1 Pro. E no Online-Mind2Web, navegação e tarefas em browser, chega a 84% — o melhor resultado de browser-agent que a Anthropic já mediu.

Agora a parte que ninguém te conta: tem um lugar onde ele perde. No coding agêntico de terminal, o GPT-5.5 lidera com 78,2% contra 74,6% do Opus 4.8. Se o seu agente vive dentro de um shell rodando comando atrás de comando, vale testar lado a lado antes de migrar tudo às cegas.

Outros números que ajudam a calibrar expectativa: Humanity's Last Exam saltou pra 57,9% com ferramentas (49,8% sem), e o índice de knowledge work subiu de 1753 para 1890 em relação ao 4.7.

Computer-use e tool calling: o agente que erra menos passo

Aqui é onde o 4.8 fica interessante pra quem constrói agente.

A Anthropic descreve o modelo como tendo "julgamento mais afiado, mais honestidade sobre o próprio progresso e capacidade de trabalhar de forma autônoma por mais tempo". Traduzindo pra engenharia: o tool calling fecha o loop com menos passos. Menos chamada redundante, menos "deixa eu listar o diretório de novo só pra ter certeza".

E tem um número que merece um print pro seu time: o Opus 4.8 é cerca de quatro vezes menos propenso que o 4.7 a deixar uma falha passar no código que ele mesmo gera. Quem revisa PR de agente sabe o tamanho disso. Não é o modelo escrevendo código mais bonito — é ele sinalizando a própria incerteza em vez de afirmar com confiança uma bobagem.

Isso é o oposto do hype. Um modelo que fala "olha, não tenho certeza disso aqui" vale mais em produção do que um que entrega errado com convicção.

Effort Control: agora você escolhe quanto ele pensa

O 4.7 já tinha trazido o xhigh entre o high e o max. O 4.8 transforma isso em um controle de primeira classe: Effort Control, disponível direto no claude.ai e no Cowork, ao lado do seletor de modelo.

São três níveis:

high — o padrão. Raciocínio sólido sem estourar latência.
xhigh ("extra") — mais profundidade quando a tarefa pede, sem o custo total do máximo.
max — tudo o que o modelo tem, pra quando errar sai mais caro que esperar.

Na prática, isso é controle de custo e latência na mão de quem desenha o produto. Tarefa de classificação simples não precisa de max. Refactor crítico de arquitetura, talvez precise. Antes você só tinha o liga-desliga do thinking. Agora tem um botão de volume.

Dynamic Workflows: centenas de subagentes no Claude Code

Esse é o recurso que mais muda o teto do que dá pra fazer.

Em research preview no Claude Code, os Dynamic Workflows rodam "centenas de subagentes em paralelo numa única sessão". A Anthropic aponta o caso de uso direto: "migrações em escala de codebase, atravessando centenas de milhares de linhas".

Pensa no que isso significa. Um refactor que você quebraria em 80 tarefas manuais vira um fan-out: dezenas de agentes atacando arquivos diferentes ao mesmo tempo, cada um no seu contexto, com um orquestrador costurando o resultado. Não é mágica — é paralelismo determinístico em cima de um modelo que erra menos passo.

Por enquanto está liberado nos planos Enterprise, Team e Max. Se você tem uma migração grande encalhada — subir versão de framework, trocar uma lib transversal, padronizar um padrão em todo o repo — é exatamente esse o tipo de trabalho que ele foi feito pra engolir.

Multimodal mais barato e o preço que não subiu

Duas notícias que mexem com a conta.

Primeira: o processamento multimodal ficou 61% mais barato em tokens que o 4.7 pra raciocínio sobre PDF e diagramas — número reportado pela Databricks no Genie. Se o seu produto lê documento, planta, dashboard ou fluxograma, isso é corte de custo direto sem trocar uma linha de prompt.

Segunda, e a melhor: o preço não mudou. Continua US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de saída, igualzinho ao 4.7. E o Fast mode ficou cerca de 2,5x mais rápido custando um terço do que custava antes. Você ganha capacidade sem reabrir a planilha de custo. Isso é raro o suficiente pra valer o destaque.

Pontos de atenção (porque não é tudo festa)

Antihype também é olhar o que ainda dói:

Dynamic Workflows é research preview. Não é GA. Espere arestas, limite de uso e comportamento que muda de uma semana pra outra. Não amarre processo crítico de produção nisso ainda.
Está só em Enterprise, Team e Max. Se você roda no plano de baixo ou só via API, os subagentes paralelos não estão na sua mão hoje.
Terminal coding não lidera. Já falamos, mas repetindo: benchmark não é o seu workload. Mede no seu caso antes de trocar o modelo do agente que vive no shell.
Mais honesto não é infalível. "Quatro vezes menos propenso a deixar falha" ainda não é zero. Avaliação, teste e revisão continuam sendo sua responsabilidade — o modelo melhorou, o seu pipeline de qualidade não pode relaxar.

FAQ rápido

Preciso migrar do 4.7 agora? Não às cegas. O preço é igual, então o risco financeiro de testar é baixo. Mas rode o seu próprio eval — especialmente se o seu agente é de terminal, onde o 4.8 não lidera. Migração de modelo se decide com número seu, não com benchmark de blog (inclusive este).

Esse pricing vale pro Fast mode também? O Fast mode tem tabela própria (mais cara por token, mas muito mais rápido), e ficou cerca de 3x mais barato que a versão anterior do Fast mode. Pra workload sensível a latência, refaça a conta — pode compensar agora.

Como uso os Dynamic Workflows? Pelo Claude Code, em research preview, nos planos Enterprise, Team ou Max. É lá que você dispara os subagentes paralelos pra tarefas grandes.

O que muda na API? O model ID é claude-opus-4-8. E a Messages API agora aceita entradas de system dentro do array de mensagens — detalhe pequeno, mas que limpa código de quem monta prompt dinâmico.

Conclusão

Claude Opus 4.8 não é um terremoto. É um modelo que erra menos passo, fala a própria incerteza, abre vantagem em código agêntico e — o que mais importa pra quem paga a conta — entrega isso sem subir o preço e ainda barateando o multimodal e o Fast mode. Pra quem constrói agente de verdade, esse pacote vale mais que qualquer demo bonita.

O próximo capítulo já tem nome: a Anthropic avisou que um modelo da classe Mythos chega "nas próximas semanas". A régua sobe de novo. E quem entrega IA em produção precisa estar testando, não só lendo thread.

Esse é, aliás, o tipo de conversa que rola todo dia entre quem está de fato com a mão na massa na Beer & Code, a maior comunidade de Engenharia de IA do Brasil — gente comparando eval de modelo novo, custo real de agente em produção e o que quebra fora do benchmark. Se quiser trocar essas notas com quem está construindo, tem um grupo no WhatsApp onde a poeira de lançamento como esse assenta rápido em prática.

Claude Opus 4.8 chegou: o que muda de verdade pra quem entrega IA em produção

TL;DR

Os números que importam (e onde ele NÃO lidera)

Computer-use e tool calling: o agente que erra menos passo

Effort Control: agora você escolhe quanto ele pensa

Dynamic Workflows: centenas de subagentes no Claude Code

Multimodal mais barato e o preço que não subiu

Pontos de atenção (porque não é tudo festa)

FAQ rápido

Conclusão

Você também pode gostar

Claude -p vai morrer: como migrar para o Claude Agent SDK

Programmatic tool calling: deixe o agente escrever o código em vez de chamar tool a tool

Claude Sonnet 5: como interpretar os benchmarks na prática

Sistemas multiagentes: arquitetura e orquestração assíncrona na prática