GPT-5 vale a pena pra programar? Código e custo na real

GPT-5 está em todo lugar. No feed, no thread de quem testou, no comentário de quem nunca abriu a API. Mas a pergunta de quem programa é só uma: vale trocar o que já funciona no meu fluxo?

Essa é a pergunta certa. Não "qual é o melhor modelo do mundo" — isso muda toda semana. A pergunta é se o ganho de trocar paga o custo de trocar: refazer prompt, reconfigurar agente, recalibrar o que você confia o modelo a fazer sozinho.

Neste post a gente olha o GPT-5 do jeito que importa pra dev: o que ele entrega em código de verdade, quanto custa por tarefa, e em que situação trocar faz sentido — e em quais não faz.

TL;DR

O que é: a linha GPT-5 da OpenAI. Começou em agosto de 2025 e hoje (junho de 2026) o topo é o GPT-5.5, lançado em abril.
Bom em: one-shot, protótipo full-stack, resolver bug de dependência num prompt só. "Vibe coding" de verdade.
Custo: GPT-5.5 a US$ 5,00 / 1M tokens de entrada e US$ 30,00 / 1M de saída. A variante Pro vai a US$ 30 / US$ 180.
Trocar? Depende do seu fluxo. Spoiler: pra maioria, o ganho não justifica jogar fora um setup que já funciona.

"GPT-5" não é um modelo. É uma linha — e isso muda a conversa

Primeiro, alinha o vocabulário. Quando alguém diz "o GPT-5", em junho de 2026 isso não aponta pra um modelo. Aponta pra uma linha.

O GPT-5 original saiu em 7 de agosto de 2025, com janela de contexto de até 400 mil tokens. De lá pra cá veio 5.4, e em 23 de abril de 2026 chegou o GPT-5.5, que é o que está no topo agora.

Por que isso importa pra decisão? Porque "vale trocar pro GPT-5?" depende de qual GPT-5 você está falando. O modelo de agosto de 2025 já é história. O que está na mesa hoje é o 5.5 — e ele é uma fera diferente, com preço diferente.

Então a partir daqui, quando eu falar "GPT-5", leia "a versão atual da linha". É ela que decide a troca.

O teste que importa: código de verdade, não demo de palco

Benchmark de slide é fácil de inflar. O que interessa é como o modelo se comporta em tarefa de código real — abrir um issue de GitHub, entender o repositório, propor o patch e não quebrar o resto.

Nesse terreno os números do GPT-5.5 são fortes. No SWE-Bench Pro, que mede resolução de issue real ponta a ponta, ele chega a 58,6%. No Terminal-Bench 2.0 — fluxo de linha de comando com planejamento, iteração e coordenação de ferramenta — ele crava 82,7%, estado da arte.

Mas segura a empolgação. No SWE-bench Verified, o benchmark de código mais citado, o GPT-5 já batia ~74,9%, e o Claude Opus 4.1 marcava 74,5%. Empate técnico. A diferença entre frontier models em código não é mais de categoria. É de casa decimal.

A diferença real está no comportamento, não no número:

O GPT-5 brilha no one-shot: você dá uma ideia de alto nível e ele sobe um full-stack inteiro. É o rei do "vibe coding".
O Claude tende a entregar código mais pronto pra produção já na primeira passada, com menos retrabalho.

Traduzindo pro seu dia: se você prototipa muito e descarta muito, o estilo do GPT-5 te serve. Se você empurra código pra produção e cada PR passa por review, o ganho de um modelo "production-first" é mais concreto. Os dois resolvem o problema. A pergunta é qual erra menos do jeito que te custa caro.

▪ Clã Beer and Code

Não só acompanhe as novidades — domine. Engenharia de IA na prática, ao vivo, toda semana, na maior comunidade do Brasil.

Entrar no Clã

Quanto custa de verdade — o número que ninguém coloca no slide

Aqui mora o detalhe que decide a conta. Modelo bom que sai caro por tarefa pode ser pior negócio que modelo "ok" e barato.

Os preços de tabela hoje:

Modelo	Entrada (US$/1M)	Saída (US$/1M)
GPT-5.5	5,00	30,00
GPT-5.5 Pro	30,00	180,00
Claude Opus 4.7	5,00	25,00
Claude Sonnet 4.6	3,00	15,00

Fontes: preço do GPT-5.5 na OpenAI e tabela da Anthropic para Opus 4.7 e Sonnet 4.6.

Olhar só a tabela engana. Duas armadilhas:

1. Tokens consumidos, não preço por token. A OpenAI afirma que o GPT-5.5 usa ~40% menos tokens de saída que a geração anterior pra fechar a mesma tarefa no Codex. Preço por token subiu, mas a conta por tarefa não sobe na mesma proporção — às vezes nem sobe. Você precisa medir custo por tarefa, não custo por milhão.

2. O tokenizer mente a seu favor — ou contra. Do lado do Claude, um novo tokenizer infla a contagem de tokens em até 35% no mesmo texto. Preço por token igual, conta final maior. Comparar US$ 30 contra US$ 25 de saída sem olhar quantos tokens cada um gera é comparar errado.

Antes de trocar, faça o teste honesto: pega 10 tarefas reais do seu backlog, roda nos dois modelos, soma o custo total e divide. Esse número — custo por tarefa entregue — é o único que importa. O resto é marketing de benchmark.

Quando trocar — e quando não

Decisão direta, sem rodeio.

Troque se:

Seu fluxo é prototipagem rápida e one-shot, e você sente o modelo atual travando em tarefa de alto nível.
Você roda agente autônomo em terminal e o salto pra 82,7% no Terminal-Bench 2.0 se traduz em menos intervenção manual no seu caso específico (teste, não confie no número).
A conta por tarefa, medida no seu backlog, fechou a favor.

Não troque se:

Seu setup atual já entrega e o custo de migração — reescrever prompt, recalibrar o que o agente faz sozinho, retreinar o time — é maior que o ganho marginal.
Você está trocando por FOMO. "Saiu modelo novo" não é motivo de engenharia. É motivo de feed.
Você ainda não mediu custo por tarefa. Sem esse número, trocar é aposta, não decisão.

A real: pra maioria dos fluxos que já funcionam, a troca não se paga sozinha. Frontier model virou commodity de casa decimal. O diferencial deixou de ser qual modelo você usa — e passou a ser como você arquiteta a solução em volta dele: contexto, recuperação, avaliação, limite de autonomia, fallback quando o modelo erra.

É exatamente esse desenho que separa um agente que aguenta produção de um que cai no primeiro caso de borda. Se você quer ver isso na prática — arquitetura de solução com agentes de IA, decisão de modelo tratada como o que é (um parâmetro, não a estratégia) — é o que a gente destrincha no Workshop Arquitetando Soluções de IA, com código rodando e as decisões na mesa.

FAQ rápido

O GPT-5 é melhor que o Claude pra programar? Em benchmark de código, empate técnico — diferença de casa decimal no SWE-bench Verified. Na prática, o GPT-5 leva no one-shot e protótipo; o Claude tende a entregar código mais pronto pra produção. Depende do seu fluxo, não existe vencedor universal — e se você quer ver essa comparação rodada com a mesma task real em ferramentas diferentes, a gente já fez esse teste lado a lado.

Quanto custa usar o GPT-5 na API? O GPT-5.5 está em US$ 5,00 por milhão de tokens de entrada e US$ 30,00 de saída. A variante Pro, pra refactor de codebase inteira e tarefa de horizonte longo, vai a US$ 30 / US$ 180. Mas o número que decide é custo por tarefa, não por token.

Vale a pena trocar meu fluxo atual pelo GPT-5? Só depois de medir. Rode 10 tarefas reais do seu backlog nos dois modelos e compare custo por tarefa e retrabalho. Se o ganho não cobre o custo de migrar prompt, agente e calibragem, fica onde está.

"GPT-5" e "GPT-5.5" são a mesma coisa? São a mesma linha. O GPT-5 saiu em agosto de 2025; o GPT-5.5, em abril de 2026, é a versão atual no topo. Quando alguém fala "GPT-5" hoje, na prática está falando do 5.5.

Conclusão

GPT-5 é um modelo excelente. Isso nunca foi a questão. A questão é que "modelo excelente" virou o piso do mercado, não o diferencial — Claude, Gemini e GPT-5 brigam por casa decimal no mesmo benchmark.

Então a resposta honesta pra "vale trocar?" é: provavelmente não, a menos que você tenha medido custo por tarefa no seu próprio backlog e o número tenha fechado a favor. Trocar por FOMO é caro e raramente se paga.

O próximo salto do dev não é escolher o modelo certo. É saber arquitetar a solução em volta dele — porque é isso que continua valendo quando a próxima versão sair semana que vem. E vai sair.