GLM 5.2: o melhor modelo de código open source é chinês, MIT e 6x mais barato
Você abre o terminal, dá uma tarefa de código de verdade pro agente — refatorar um módulo, fechar uma issue chata, mexer em três arquivos que conversam entre si — e paga Opus por isso. Faz sentido: é o que entrega.
Só que essa semana a conta mudou. A Z.ai (a antiga Zhipu) soltou o GLM 5.2, um modelo open-weight de 753 bilhões de parâmetros, sob licença MIT, que encosta no Claude Opus 4.8 em código — fica a 0,7 ponto dele no FrontierSWE — e cobra um sexto do preço por token. Pesos abertos. Roda na sua infra se você quiser.
Esse post é sobre o que isso muda pra quem programa com IA no Brasil. Os números reais, o que o "open source" te dá de fato, quando vale rodar self-host, e onde o Opus ainda ganha. Sem torcida.
TL;DR
- O que é: GLM 5.2, LLM de código da Z.ai (ex-Zhipu), open-weight com 753B de parâmetros (40B ativos, arquitetura MoE) e contexto de 1M de tokens.
- Licença: MIT — pesos liberados no Hugging Face, uso comercial e self-host sem amarra regional.
- Custo (API): US$ 1,40 por milhão de tokens de entrada / US$ 4,40 de saída. Opus 4.8 cobra US$ 5 / US$ 25.
- Benchmark de código: 74,4 no FrontierSWE (Opus 4.8: 75,1), bate o GPT-5.5 no SWE-bench Pro, 1º open-weight a passar de 80% no Terminal-Bench 2.1.
- Link útil: pesos no Hugging Face (zai-org/GLM-5.2) · anúncio e benchmarks (VentureBeat).
O contexto: por que o GLM 5.2 importa
Até semana passada, a frase "o melhor modelo de código é open source" era torcida, não fato. Os pesos abertos vinham sempre um degrau atrás dos modelos fechados nos benchmarks que importam — os de tarefa longa, agentic, onde o modelo tem que abrir arquivo, entender o repo, editar e não quebrar o build.
O GLM 5.2 fechou esse degrau. Nos benchmarks publicados pela Z.ai, ele:
- Tira 74,4 no FrontierSWE, contra 75,1 do Claude Opus 4.8 e 72,6 do GPT-5.5. A diferença pro líder é de 0,7 ponto.
- Bate o GPT-5.5 no SWE-bench Pro (62,1 contra 58,6).
- É o primeiro modelo open-weight a passar de 80% no Terminal-Bench 2.1, com 81,0.
- Aparece em 2º lugar global no Code Arena.
Traduzindo: pela primeira vez um modelo que você pode baixar, inspecionar e rodar na sua máquina está competindo de igual pra igual com o topo fechado em tarefa de código de verdade — não em pergunta de múltipla escolha, mas em "resolva essa issue no repo".
E tem uma sacada de engenharia por trás. A Z.ai introduziu uma otimização chamada IndexShare, que corta o custo de FLOPs por token em ~2,9x no contexto de 1M. É o tipo de detalhe que separa "modelo grande que existe" de "modelo grande que dá pra servir sem queimar dinheiro". Conceito, aplicação e impacto: arquitetura MoE com sharing de índice, menos compute por token em contexto longo, inferência de 1M de tokens que não inviabiliza o self-host.
A conta que muda: preço por token
O número que faz o dev brasileiro parar é esse:
| Modelo | Entrada (US$/Mtok) | Saída (US$/Mtok) | Licença |
|---|---|---|---|
| GLM 5.2 | 1,40 | 4,40 | MIT (open-weight) |
| Claude Opus 4.8 | 5,00 | 25,00 | Fechado |
| GPT-5.5 | 5,00 | 30,00 | Fechado |
A saída — que é onde um agente de código gasta, porque ele escreve muito — sai 5x a 7x mais barata. Num fluxo agentic real, onde o modelo gera diff atrás de diff, esse delta é a diferença entre um custo que você absorve e um que você precisa justificar pro financeiro.
Faz a continha de um time que roda 10M de tokens/mês, metade entrada metade saída: o GLM 5.2 fica em torno de US$ 29/mês. O GPT-5.5, nos mesmos 10M, passa de US$ 175. Multiplica por dez devs com agente rodando o dia inteiro e você entende por que essa notícia não é hype de Twitter — é linha de orçamento.
"Open source" aqui significa o quê, na prática
Cuidado com a palavra. "Open source" em LLM virou guarda-chuva pra coisas bem diferentes. No GLM 5.2 o que você ganha de concreto:
- Pesos sob licença MIT. Não é "API com plano grátis". É o arquivo do modelo, liberado, com uso comercial permitido e sem cláusula de limite regional.
- Self-host de verdade. Você pode subir o modelo na sua infra, atrás do seu firewall, e nenhum dado de cliente sai da sua rede. Pra quem tem cliente com restrição de LGPD ou contrato que proíbe dado em provedor estrangeiro, isso é o que destrava o projeto.
- Inspeção. Dá pra auditar, quantizar, fazer fine-tuning. O modelo é seu pra mexer.
E o ponto que ninguém fala em voz alta: usar o GLM 5.2 pela API da Z.ai é uma coisa; rodar os pesos na sua infra é outra completamente diferente. A API é chinesa, e há quem levante risco de dado trafegando pra China. A licença MIT é justamente a saída: você baixa os pesos e o assunto "pra onde vai meu dado" acaba — porque o dado não vai a lugar nenhum.
Rodar self-host: o sonho e a fatura
Agora o banho de água fria, porque aqui é Beer & Code e não folheto de vendas. "Pesos abertos" não quer dizer "roda no seu notebook".
O GLM 5.2 tem ~750GB de pesos só em FP8 (1 byte por parâmetro). Em BF16 isso dobra. O que isso exige, segundo os guias de deploy que já saíram:
- FP8 (produção): um nó de 8x H200 ou 8x H20 (141GB cada), que dá ~1.128GB de VRAM agregada — sobra pro KV cache e overhead.
- BF16 cheio: ~1.488GB de pesos, o que joga você pra ~16 GPUs.
- Contexto de 1M completo: aí sobe pra 8x B200.
- Tinkering / dev local: o caminho barato é
llama.cppcom os GGUF quantizados da Unsloth. Não é produção, mas dá pra brincar.
O stack de serving é vLLM (v0.23.0+) ou SGLang, com --tensor-parallel-size 8, expert parallel e quantização FP8. Nada disso é exótico pra quem já serve modelo — mas é uma fatura de GPU real.
A regra de bolso honesta: se o seu volume é baixo (abaixo de ~100 prompts/dia) e você não tem trava de compliance, não faça self-host. Use a API/Coding Plan, economize o trabalho de infra, e só monte o cluster quando aparecer um motivo de verdade — dado sensível, volume alto e constante, ou exigência contratual. Self-host é alavanca, não troféu.
Limitações e onde o Opus ainda ganha
O GLM 5.2 encostou. Não ultrapassou. E "0,7 ponto" num benchmark esconde nuance:
- Nas tarefas mais difíceis, o Opus 4.8 ainda lidera. No SWE-bench Verified ele crava 88,6%, e em fluxo agentic longo, com muitas idas e voltas de tool use, a margem aparece. Benchmark é média; o seu caso difícil é cauda.
- Self-host tem custo escondido de operação. Subir o cluster é a parte fácil. Manter throughput, KV cache, tail latency e disponibilidade é o trabalho que não some.
- A API é chinesa. Se você for de API, leia o termo de dados antes de jogar código proprietário lá. Pra dado sensível, ou self-host ou nem cogita.
- Ecossistema e ferramental. Toda a tooling madura de agente (harness, IDE, CI) nasceu mirando OpenAI/Anthropic. Plugar o GLM no seu harness funciona, mas espere acertar adaptador aqui e ali.
FAQ rápido
Posso usar comercialmente? Sim. A licença é MIT, que permite uso comercial, modificação e redistribuição. É das licenças mais permissivas que existem — por isso o lançamento pesou tanto.
Funciona local ou só na cloud?
Os dois, mas "local" sério é cluster de GPU, não notebook. Pra produção, 8x H200 em FP8. Pra mexer e estudar, GGUF quantizado no llama.cpp. A API da Z.ai existe pra quem não quer hospedar nada.
Devo trocar Opus por GLM 5.2 já? Depende do trabalho. Pra grosso do volume — tarefa de código comum, alto throughput, custo importando — o GLM 5.2 muda a conta. Pro caso mais difícil e crítico, teste lado a lado antes: 0,7 ponto na média pode virar diferença grande no seu repo específico. Mede, não chuta.
Por que isso é notícia agora e não daqui a um mês? Porque é o primeiro open-weight a brigar pelo topo em código de verdade. Quando um modelo que você pode baixar fica a um passo do melhor modelo fechado do mundo, a pergunta deixa de ser "qual o melhor" e passa a ser "quanto você quer pagar pela diferença".
Conclusão: a pergunta mudou
Até semana passada a escolha era simples: quer o melhor em código, paga Opus. Agora existe um meio-termo legítimo — open source, MIT, a 0,7 ponto do topo, por um sexto do preço, e seu pra rodar onde quiser.
Isso não mata o Opus. Mata a desculpa de não ter alternativa. O GLM 5.2 é mais uma peça na estante de modelos do dev — e escolher o modelo certo pra cada tarefa já virou competência de engenharia, não preferência de marca. O modelo é commodity. O que você constrói em volta dele não é.
E é exatamente aí que mora o trabalho de verdade: o modelo é só uma peça do harness — o loop, as tools, o estado, os guardrails é que decidem se o agente aguenta produção. Se você quer ver isso na prática, construindo um agente de ponta a ponta em vez de só trocar de modelo, é o que a gente faz mão na massa no workshop Do Prompt ao Harness: construindo um Agent de Vendas. O modelo você troca quando quiser; a engenharia em volta é o que fica.
{AI Engineer} — apaixonado por Laravel, arquitetura de software e construir produtos com impacto. Compartilho aqui tutoriais, descobertas e reflexões sobre o dia a dia de engenharia.
Você também pode gostar
Modelos de IA open source valem a pena em 2026? A conta real de rodar local
Modelos open source fecharam o gap em 2026. Mas "open source" não é "local" e "local" não é "de graça". A conta honesta de quando rodar LLM local compensa: custo, privacidade e velocidade.
Claude Opus 4.8 vs Minimax M3 vs Qwen 3: paguei caro, paguei barato e rodei de graça
Construí o mesmo encurtador de links três vezes, sem mão humana no código, com Opus 4.8 (US$100/mês), Minimax M3 (US$20) e Qwen 3.6 local na RTX 4080. Tempo, resultado e veredito honesto sobre pago, barato e de graça.
GPT-5 na prática: vale trocar o que você já usa pra programar?
GPT-5 está em todo lugar, mas a pergunta de quem programa é só uma: vale trocar o que já funciona? Olhamos código real, custo por tarefa e quando a troca se paga, no tom honesto da marca.
Ferramentas de IA para dev backend: top 12 testadas em 90 dias de Laravel real
Review longa e opinada de 12 ferramentas de IA pra dev backend, depois de 90 dias rodando num Laravel real em produção. Nota 0-10, veredito em uma linha, e 5 que viralizaram mas não cumpriram.