Claude Opus 4.8 vs Minimax M3 vs Qwen 3: teste honesto

Eu queria responder uma pergunta que todo dev faz no chuveiro e quase ninguém testa de verdade: o modelo caro vale mesmo o preço?

Claude Opus 4.8 vs Minimax M3 vs Qwen 3 local. O caro, o barato e o de graça, construindo exatamente o mesmo app, sem ninguém pra ajudar.

Então montei o teste mais honesto que consegui imaginar. Peguei o mesmo projeto — um encurtador de links — e mandei três modelos diferentes construírem do zero. Sozinhos. Zero intervenção humana no código. Eu dei o prompt inicial, liguei o harness do agente e sentei pra assistir.

De um lado, Claude Opus 4.8 rodando no meu plano de US$100/mês. Do outro, Minimax M3 num plano de US$20. E no terceiro, Qwen 3.6 rodando local, de graça, na minha RTX 4080. Mesmo briefing pros três. Mesmo critério de "pronto".

O que eu esperava: o caro ia destruir, o de graça ia ser um desastre. Acertei numa coisa. Errei feio na outra. Vem comigo que eu te mostro o que rolou em cada rodada — com tempo, resultado e veredito sem maquiagem.

TL;DR

O que é: o mesmo app (um encurtador de links funcional) construído três vezes, por três modelos, sem nenhuma mão humana no código.
Modelos: Claude Opus 4.8 (US$100/mês), Minimax M3 (US$20/mês), Qwen 3.6 27B rodando local numa RTX 4080.
Custo/acesso: pago premium, pago barato e open-weight de graça na sua própria máquina.
Veredito curto: o caro ganhou. Mas a distância foi MUITO menor do que o preço deixa imaginar — e o de graça não fez feio.

As regras do jogo (e por que esse teste importa)

Benchmark é ótimo pra vender manchete. SWE-bench Pro diz que o Opus 4.8 acerta 69,2% das tarefas, que o Minimax M3 fica em 59% e por aí vai. Número bonito. Só que número de benchmark não te conta a única coisa que importa quando você está construindo produto: esse modelo entrega um app que funciona de ponta a ponta sem eu segurar a mão dele a cada passo?

É isso que eu quis medir. Não "qual acerta mais issue do GitHub". E sim "qual eu solto sozinho e volto pra um software que roda".

Antes das rodadas, o retrato de cada concorrente em junho de 2026:

Opus 4.8 — o topo de linha da Anthropic, lançado em 28 de maio de 2026. É hoje o modelo de coding mais capaz do mercado, e cobra por isso. No meu caso, US$100/mês de plano Max.
Minimax M3 — o open-weight chinês lançado em 1º de junho de 2026, com janela de contexto de 1 milhão de tokens e atenção esparsa (MSA) que deixa a decodificação muito mais rápida. Na API sai por US$0,60 por milhão de tokens de entrada. Aqui rodou num plano de US$20.
Qwen 3.6 27B — o modelo de coding aberto da Alibaba que roda numa única GPU e chega pertinho dos modelos fechados no SWE-bench. Esse foi o de graça: baixei os pesos, subi local na RTX 4080. Detalhe importante — a 4080 tem 16GB, então rodei quantizado em Q4. Isso cobra um preço, e eu volto nisso.

O setup foi idêntico: mesmo prompt, mesmo harness de agente, mesmo critério de entrega. O encurtador tinha que fazer o básico de verdade — criar link curto, redirecionar, contar clique e ter um painel simples pra listar os links. Nada de "olá mundo". Um app pequeno, mas inteiro.

Rodada 1: Opus 4.8, o caro

Começou e em poucos minutos eu já sabia por que esse modelo custa o que custa.

O Opus não titubeou. Leu o briefing, escolheu uma stack coerente, montou as rotas, o model de link, a lógica de redirect com contagem de clique e um painel enxuto. Escreveu teste junto. Quando bateu num errinho de migration, ele leu o próprio erro, entendeu e corrigiu — sem eu falar nada. Foi o único que entregou com teste passando de primeira e sem eu precisar respirar fundo.

Tempo até um app que rodava: cerca de 12 minutos. Foi o mais rápido, o mais limpo e o que menos me deu vontade de abrir o editor pra "dar uma ajeitada". Era código que eu mandaria pra review sem vergonha.

Esse é o ponto que o benchmark não captura: não foi só "mais certo". Foi mais decidido. Menos idas e vindas, menos retrabalho, menos token gasto andando em círculo. Acertei na minha aposta — o caro destruiu.

Rodada 2: Minimax M3, o barato

Aqui veio o primeiro susto.

Eu esperava uma queda grande. Não foi o que aconteceu. O Minimax M3 montou o encurtador inteiro, funcional, com redirect e contagem de clique batendo. Ele foi um pouco mais prolixo, deu uma volta a mais numa parte do roteamento e introduziu um bug bobo de rota duplicada — que ele mesmo caçou e corrigiu na sequência, sem eu intervir.

Tempo até rodar: por volta de 18 minutos. Mais lento que o Opus, sim. Mas a quilômetros do "desastre" que eu projetava pra um modelo que custa um quinto do preço.

Faça a conta de produto comigo. Se o Opus é o 10 e o Minimax entrega um 8 sólido por US$20, isso muda completamente o cálculo de quem está tocando projeto com orçamento apertado. Pra protótipo, MVP, ferramenta interna, script de automação? O barato resolve. E o contexto de 1M token dele é uma arma que nem entrou em jogo num app pequeno desse — num codebase grande, faz diferença.

▪ Clã Beer and Code

Não só acompanhe as novidades — domine. Engenharia de IA na prática, ao vivo, toda semana, na maior comunidade do Brasil.

Entrar no Clã

Rodada 3: Qwen 3.6 local, o de graça

E aqui eu errei feio. Pra melhor.

Minha aposta era que o modelo local, rodando quantizado numa placa de consumo, ia travar, alucinar ou entregar algo quebrado. Liguei o Qwen 3.6 na RTX 4080, soltei o mesmo prompt e fui fazer outra coisa esperando o circo pegar fogo.

Não pegou. O Qwen construiu o encurtador. Funcional. Redirect funcionando, clique contando, painel listando. De graça, na minha máquina, com os meus dados nunca saindo pra lugar nenhum.

Teve preço, claro — e o preço foi tempo. Rodando em Q4 numa 4080 de 16GB, a geração é bem mais lenta, e ele precisou de mais idas e vindas: errou um detalhe de schema, eu deixei o harness reapontar, ele corrigiu. Do início até um app que rodava deram uns 40 minutos. É o triplo do Opus. Mas é quarenta minutos de uma máquina que já estava na minha mesa, sem mandar uma única linha de código ou dado pra nuvem de ninguém.

Pra quem se importa com privacidade, com rodar offline, ou simplesmente com não pagar assinatura nenhuma pra brincar e aprender, isso é enorme. O "de graça" de 2026 não é mais brinquedo.

Claude Opus 4.8 vs Minimax (e Qwen): o veredito honesto

Sem maquiagem, na ordem que importa pra produto:

Opus 4.8 venceu. Mais rápido, mais decidido, código mais limpo, menos retrabalho. Se você cobra por hora ou tem prazo de cliente, esses minutos a menos e esse retrabalho que não acontece pagam o US$100 fácil. O caro não ganhou por capricho — ganhou na parte que vira dinheiro.
Minimax M3 é o choque de custo-benefício. Entregou perto demais por um quinto do preço. Pra orçamento enxuto, protótipo e ferramenta interna, é a escolha racional. Onde te queima: foi mais prolixo e precisou se corrigir mais — num fluxo crítico, esse "se corrigir sozinho" nem sempre acontece.
Qwen 3.6 local é o cavalo de pau das suas expectativas. De graça, privado, offline, e ainda assim funcional. Onde te queima: a 4080 de 16GB obriga quantização agressiva, e o tranco de qualidade da quantização pode comer parte do ganho de rodar local. É lento. Pra iteração rápida no trabalho, esse tempo dói. Pra estudo, hobby e dado sensível, vale ouro.

A lição que eu tiro disso não é "use o caro" nem "use o de graça". É que a distância entre eles encolheu de um jeito que muda a pergunta. Antes era "dá pra trabalhar com modelo barato?". Agora é "pra qual tarefa cada um desses três é a ferramenta certa?". Isso é decisão de engenharia, não de marketing.

FAQ rápido

O teste foi justo? Mesmo prompt pra todos? Mesmo prompt, mesmo harness de agente, mesmo critério de pronto. A única variável foi o modelo — e, no caso do Qwen, o hardware local com quantização. Foi de propósito: eu queria ver o trio no mundo real, não num laboratório.

Por que o Qwen demorou tanto? Rodou local numa RTX 4080 de 16GB, em Q4. Placa de consumo gera menos tokens por segundo que uma GPU de datacenter, e a quantização ainda adiciona idas e vindas. O modelo é capaz; o gargalo foi a máquina.

Posso usar esses modelos comercialmente? Opus e Minimax você usa via assinatura/API conforme os termos de cada um. O Qwen é open-weight e você roda na sua própria infra — leia a licença do modelo pro seu caso, mas o ponto é: dá pra ter coding decente sem depender de nuvem de terceiro.

Então qual eu devo usar? Cliente e prazo: Opus. Orçamento apertado e protótipo: Minimax. Privacidade, offline ou aprendizado sem pagar nada: Qwen local. Os três entregaram um app que roda. A escolha virou contexto, não capricho.

Conclusão

Três modelos, um encurtador de links, zero mão humana no código. O caro ganhou — e ganhou na parte que vira dinheiro, não no benchmark de manchete. Mas o barato chegou perto demais, e o de graça, rodando na minha própria placa, entregou um app funcional que eu apostei que ia falhar. Eu acertei que o Opus destruiria. Errei feio achando que o local seria lixo.

O recado pro dev de 2026 é esse: o gargalo deixou de ser o modelo. Os três sabem programar. O que separa um teste de YouTube de um produto que aguenta produção é o que vem em volta do modelo — o harness, o contexto, a avaliação, a arquitetura da automação. É exatamente esse caminho, do prompt solto até um agente rodando de verdade, que a gente vai construir ao vivo no Do Prompt ao Harness: construindo um agente de vendas, pegando um agente de vendas do zero até produção. Modelo bom qualquer um liga; o que dá dinheiro é o que você constrói em cima dele.