GLM 5.2: open source, a 1 ponto do Opus e 6x mais barato

Você abre o terminal, dá uma tarefa de código de verdade pro agente — refatorar um módulo, fechar uma issue chata, mexer em três arquivos que conversam entre si — e paga Opus por isso. Faz sentido: é o que entrega.

Só que essa semana a conta mudou. A Z.ai (a antiga Zhipu) soltou o GLM 5.2, um modelo open-weight de 753 bilhões de parâmetros, sob licença MIT, que encosta no Claude Opus 4.8 em código — fica a 0,7 ponto dele no FrontierSWE — e cobra um sexto do preço por token. Pesos abertos. Roda na sua infra se você quiser.

Esse post é sobre o que isso muda pra quem programa com IA no Brasil. Os números reais, o que o "open source" te dá de fato, quando vale rodar self-host, e onde o Opus ainda ganha. Sem torcida.

TL;DR

O que é: GLM 5.2, LLM de código da Z.ai (ex-Zhipu), open-weight com 753B de parâmetros (40B ativos, arquitetura MoE) e contexto de 1M de tokens.
Licença: MIT — pesos liberados no Hugging Face, uso comercial e self-host sem amarra regional.
Custo (API): US$ 1,40 por milhão de tokens de entrada / US$ 4,40 de saída. Opus 4.8 cobra US$ 5 / US$ 25.
Benchmark de código: 74,4 no FrontierSWE (Opus 4.8: 75,1), bate o GPT-5.5 no SWE-bench Pro, 1º open-weight a passar de 80% no Terminal-Bench 2.1.
Link útil: pesos no Hugging Face (zai-org/GLM-5.2) · anúncio e benchmarks (VentureBeat).

O contexto: por que o GLM 5.2 importa

Até semana passada, a frase "o melhor modelo de código é open source" era torcida, não fato. Os pesos abertos vinham sempre um degrau atrás dos modelos fechados nos benchmarks que importam — os de tarefa longa, agentic, onde o modelo tem que abrir arquivo, entender o repo, editar e não quebrar o build.

O GLM 5.2 fechou esse degrau. Nos benchmarks publicados pela Z.ai, ele:

Tira 74,4 no FrontierSWE, contra 75,1 do Claude Opus 4.8 e 72,6 do GPT-5.5. A diferença pro líder é de 0,7 ponto.
Bate o GPT-5.5 no SWE-bench Pro (62,1 contra 58,6).
É o primeiro modelo open-weight a passar de 80% no Terminal-Bench 2.1, com 81,0.
Aparece em 2º lugar global no Code Arena.

Traduzindo: pela primeira vez um modelo que você pode baixar, inspecionar e rodar na sua máquina está competindo de igual pra igual com o topo fechado em tarefa de código de verdade — não em pergunta de múltipla escolha, mas em "resolva essa issue no repo".

E tem uma sacada de engenharia por trás. A Z.ai introduziu uma otimização chamada IndexShare, que corta o custo de FLOPs por token em ~2,9x no contexto de 1M. É o tipo de detalhe que separa "modelo grande que existe" de "modelo grande que dá pra servir sem queimar dinheiro". Conceito, aplicação e impacto: arquitetura MoE com sharing de índice, menos compute por token em contexto longo, inferência de 1M de tokens que não inviabiliza o self-host.

A conta que muda: preço por token

O número que faz o dev brasileiro parar é esse:

Modelo	Entrada (US$/Mtok)	Saída (US$/Mtok)	Licença
GLM 5.2	1,40	4,40	MIT (open-weight)
Claude Opus 4.8	5,00	25,00	Fechado
GPT-5.5	5,00	30,00	Fechado

A saída — que é onde um agente de código gasta, porque ele escreve muito — sai 5x a 7x mais barata. Num fluxo agentic real, onde o modelo gera diff atrás de diff, esse delta é a diferença entre um custo que você absorve e um que você precisa justificar pro financeiro.

Faz a continha de um time que roda 10M de tokens/mês, metade entrada metade saída: o GLM 5.2 fica em torno de US$ 29/mês. O GPT-5.5, nos mesmos 10M, passa de US$ 175. Multiplica por dez devs com agente rodando o dia inteiro e você entende por que essa notícia não é hype de Twitter — é linha de orçamento.

"Open source" aqui significa o quê, na prática

Cuidado com a palavra. "Open source" em LLM virou guarda-chuva pra coisas bem diferentes. No GLM 5.2 o que você ganha de concreto:

Pesos sob licença MIT. Não é "API com plano grátis". É o arquivo do modelo, liberado, com uso comercial permitido e sem cláusula de limite regional.
Self-host de verdade. Você pode subir o modelo na sua infra, atrás do seu firewall, e nenhum dado de cliente sai da sua rede. Pra quem tem cliente com restrição de LGPD ou contrato que proíbe dado em provedor estrangeiro, isso é o que destrava o projeto.
Inspeção. Dá pra auditar, quantizar, fazer fine-tuning. O modelo é seu pra mexer.

E o ponto que ninguém fala em voz alta: usar o GLM 5.2 pela API da Z.ai é uma coisa; rodar os pesos na sua infra é outra completamente diferente. A API é chinesa, e há quem levante risco de dado trafegando pra China. A licença MIT é justamente a saída: você baixa os pesos e o assunto "pra onde vai meu dado" acaba — porque o dado não vai a lugar nenhum.

Rodar self-host: o sonho e a fatura

Agora o banho de água fria, porque aqui é Beer & Code e não folheto de vendas. "Pesos abertos" não quer dizer "roda no seu notebook".

O GLM 5.2 tem ~750GB de pesos só em FP8 (1 byte por parâmetro). Em BF16 isso dobra. O que isso exige, segundo os guias de deploy que já saíram:

FP8 (produção): um nó de 8x H200 ou 8x H20 (141GB cada), que dá ~1.128GB de VRAM agregada — sobra pro KV cache e overhead.
BF16 cheio: ~1.488GB de pesos, o que joga você pra ~16 GPUs.
Contexto de 1M completo: aí sobe pra 8x B200.
Tinkering / dev local: o caminho barato é llama.cpp com os GGUF quantizados da Unsloth. Não é produção, mas dá pra brincar.

O stack de serving é vLLM (v0.23.0+) ou SGLang, com --tensor-parallel-size 8, expert parallel e quantização FP8. Nada disso é exótico pra quem já serve modelo — mas é uma fatura de GPU real.

A regra de bolso honesta: se o seu volume é baixo (abaixo de ~100 prompts/dia) e você não tem trava de compliance, não faça self-host. Use a API/Coding Plan, economize o trabalho de infra, e só monte o cluster quando aparecer um motivo de verdade — dado sensível, volume alto e constante, ou exigência contratual. Self-host é alavanca, não troféu.

Limitações e onde o Opus ainda ganha

O GLM 5.2 encostou. Não ultrapassou. E "0,7 ponto" num benchmark esconde nuance:

Nas tarefas mais difíceis, o Opus 4.8 ainda lidera. No SWE-bench Verified ele crava 88,6%, e em fluxo agentic longo, com muitas idas e voltas de tool use, a margem aparece. Benchmark é média; o seu caso difícil é cauda.
Self-host tem custo escondido de operação. Subir o cluster é a parte fácil. Manter throughput, KV cache, tail latency e disponibilidade é o trabalho que não some.
A API é chinesa. Se você for de API, leia o termo de dados antes de jogar código proprietário lá. Pra dado sensível, ou self-host ou nem cogita.
Ecossistema e ferramental. Toda a tooling madura de agente (harness, IDE, CI) nasceu mirando OpenAI/Anthropic. Plugar o GLM no seu harness funciona, mas espere acertar adaptador aqui e ali.

FAQ rápido

Posso usar comercialmente? Sim. A licença é MIT, que permite uso comercial, modificação e redistribuição. É das licenças mais permissivas que existem — por isso o lançamento pesou tanto.

Funciona local ou só na cloud? Os dois, mas "local" sério é cluster de GPU, não notebook. Pra produção, 8x H200 em FP8. Pra mexer e estudar, GGUF quantizado no llama.cpp. A API da Z.ai existe pra quem não quer hospedar nada.

Devo trocar Opus por GLM 5.2 já? Depende do trabalho. Pra grosso do volume — tarefa de código comum, alto throughput, custo importando — o GLM 5.2 muda a conta. Pro caso mais difícil e crítico, teste lado a lado antes: 0,7 ponto na média pode virar diferença grande no seu repo específico. Mede, não chuta.

Por que isso é notícia agora e não daqui a um mês? Porque é o primeiro open-weight a brigar pelo topo em código de verdade. Quando um modelo que você pode baixar fica a um passo do melhor modelo fechado do mundo, a pergunta deixa de ser "qual o melhor" e passa a ser "quanto você quer pagar pela diferença".

Conclusão: a pergunta mudou

Até semana passada a escolha era simples: quer o melhor em código, paga Opus. Agora existe um meio-termo legítimo — open source, MIT, a 0,7 ponto do topo, por um sexto do preço, e seu pra rodar onde quiser.

Isso não mata o Opus. Mata a desculpa de não ter alternativa. O GLM 5.2 é mais uma peça na estante de modelos do dev — e escolher o modelo certo pra cada tarefa já virou competência de engenharia, não preferência de marca. O modelo é commodity. O que você constrói em volta dele não é.

E é exatamente aí que mora o trabalho de verdade: o modelo é só uma peça do harness — o loop, as tools, o estado, os guardrails é que decidem se o agente aguenta produção. Se você quer ver isso na prática, construindo um agente de ponta a ponta em vez de só trocar de modelo, é o que a gente faz mão na massa no workshop Do Prompt ao Harness: construindo um Agent de Vendas. O modelo você troca quando quiser; a engenharia em volta é o que fica.

GLM 5.2: o melhor modelo de código open source é chinês, MIT e 6x mais barato

TL;DR

O contexto: por que o GLM 5.2 importa

A conta que muda: preço por token

"Open source" aqui significa o quê, na prática

Rodar self-host: o sonho e a fatura

Limitações e onde o Opus ainda ganha

FAQ rápido

Conclusão: a pergunta mudou

Você também pode gostar

Modelos de IA open source valem a pena em 2026? A conta real de rodar local

Claude Opus 4.8 vs Minimax M3 vs Qwen 3: paguei caro, paguei barato e rodei de graça

GPT-5 na prática: vale trocar o que você já usa pra programar?

Ferramentas de IA para dev backend: top 12 testadas em 90 dias de Laravel real