LongCat 2.0: o modelo fantasma owl-alpha que sumiu do OpenRouter era um MoE de 1,6 trilhão
Por semanas, um modelo anônimo chamado owl-alpha apareceu no OpenRouter e começou a engolir tráfego. Devs testaram, gostaram, jogaram em produção. O bicho subiu nos rankings sem ninguém saber de quem era.
Depois sumiu do catálogo. Do nada.
O motivo? Não era um modelo qualquer. Era a LongCat-2.0 — um MoE de 1,6 trilhão de parâmetros da Meituan, revelado oficialmente no dia 30 de junho de 2026. O owl-alpha era a preview disfarçada dela, rodando na sua frente o tempo todo.
E essa história diz mais sobre como a indústria de IA funciona hoje do que o benchmark de qualquer modelo.
O que é um "modelo fantasma"
Aqui vai a parte que pouca gente explica direito: laboratórios testam modelos disfarçados na sua frente, e isso é prática comum.
No OpenRouter existe um provider chamado Stealth. A ideia é simples. Um lab quer feedback real — não bench sintético, não demo controlada. Quer saber como o modelo se comporta quando um dev de verdade joga um codebase quebrado, um prompt mal escrito e uma janela de contexto gigante em cima dele. Então sobe o modelo com um nome de fantasia, sem marca, e deixa a comunidade usar.
Não é a primeira vez. Em abril de 2025, dois modelos cloaked apareceram do mesmo jeito: Quasar Alpha e Optimus Alpha. Os dois eram da OpenAI — viraram o GPT-4.1 pouco depois. O padrão se repete: modelo anônimo, comunidade testa, identidade revelada no lançamento.
Tem um detalhe que todo dev precisa saber. Modelo stealth é "cloaked": prompts e completions são logados e mandados de volta pro lab. É feedback gratuito pra eles, e dado seu saindo de graça. A própria descrição do Quasar Alpha dizia isso na cara: "todos os prompts e completions são registrados pra que o lab entenda como está sendo usado".
Tradução prática: se você jogou código proprietário no owl-alpha achando que era só mais um modelo no menu, a Meituan provavelmente tem ele agora. Não é maldade. É o trato implícito de usar um modelo de graça antes do anúncio. Mas é um trato que muita gente assinou sem ler.
owl-alpha: o que a comunidade viu antes do nome
Antes de ter nome, o owl-alpha já era um monstro de tráfego.
Os números que circularam na revelação:
- 10,1 trilhões de tokens por mês de throughput.
- 559 bilhões de tokens por dia.
- Crescimento de +242% no mês.
- #1 em uso no Hermes Agent, #2 no Claude Code, #3 no OpenClaw.
A preview da LongCat-2.0 saiu em 24 de abril de 2026 e apareceu no OpenRouter como owl-alpha cerca de quatro dias depois. O acesso era gratuito, com cota diária por usuário. É exatamente a receita pra escalar adoção rápido: bom, grátis e sem fricção de cadastro.
A revelação veio do jeito que esse tipo de coisa sempre vem — pela comunidade. Gente cruzando o comportamento do modelo, o sumiço do nome no catálogo do OpenRouter e o anúncio iminente da Meituan. O owl-alpha desaparece, a LongCat-2.0 aparece, e a conta fecha.
A revelação: 1,6 trilhão de parâmetros, mas nem tudo liga ao mesmo tempo
Agora a engenharia. Porque "1,6 trilhão de parâmetros" soa absurdo até você entender o que é um MoE.
LongCat-2.0 é um Mixture-of-Experts. Tem 1,6 trilhão de parâmetros no total, mas só ativa em média ~48 bilhões por token — com um range dinâmico de 33B a 56B dependendo da dificuldade do que você pediu. Ou seja: o modelo é gigante na capacidade, mas barato no custo de inferência por token, porque ele só acende os "especialistas" certos pra cada pedaço da resposta.
É essa a sacada de arquitetura que permite um modelo desse tamanho rodar com latência decente em produção. Você não paga 1,6T de compute por token. Paga uns 48B.
Em cima disso, a Meituan colocou o que chama de LongCat Sparse Attention (LSA). A ideia: em vez de atenção quadrática (que explode quando o contexto cresce), o mecanismo seleciona só a informação relevante e reduz a complexidade de quadrática pra linear ao longo de toda a janela. E a janela é de 1 milhão de tokens, nativa — não enxertada com truque de extrapolação depois do treino.
Junte as duas coisas: MoE esparso pra baratear a inferência, atenção esparsa pra aguentar contexto longo. É um modelo desenhado de raiz pra trabalho agêntico — code generation, DevOps, loops longos de ferramenta — não pra ganhar concurso de chat.
A licença é MIT. Os pesos abertos. No momento em que esse post sai, a Meituan ainda está liberando os detalhes oficiais — então trate números finos como preliminares e confira a página do modelo no Hugging Face antes de cravar nada em produção.
Os benchmarks: near-frontier de verdade
Os números que a Meituan publicou colocam a LongCat-2.0 na briga de cima, não no pelotão de trás:
- SWE-bench Pro: 59,5 — acima do GPT-5.5, que marca 58,6.
- Terminal-Bench 2.1: 70,8.
- SWE-bench Multilingual: 77,3.
- BrowseComp: 79,9.
Repara no perfil: todos os benchmarks fortes são agênticos e de engenharia. SWE-bench é resolver issue de repo real. Terminal-Bench é tarefa de terminal de ponta a ponta. BrowseComp é navegação. Esse modelo não foi otimizado pra responder trivia bonita — foi otimizado pra fechar tarefa.
Faz sentido com o resto da história: o owl-alpha liderava justamente em Hermes Agent e Claude Code, que são usos agênticos. O benchmark e o tráfego real contam a mesma coisa.
O detalhe geopolítico: treinada sem uma única GPU NVIDIA
Esse é o ponto que faz a notícia sair do nicho técnico e virar manchete.
A LongCat-2.0 foi treinada inteiramente em chips chineses — entre 50 e 60 mil aceleradores domésticos, organizados no que a Meituan chama de "ASIC superpods". Zero NVIDIA. O pré-treino passou de 30 trilhões de tokens sem rollback e sem spike irrecuperável de loss — o que, pra quem já viu um treino grande dar pau, é uma afirmação ousada.
O recado é direto: o gargalo de hardware imposto pelos controles de exportação dos EUA não impediu um modelo de 1,6T near-frontier de sair de uma stack 100% chinesa. E não saiu de um lab de pesquisa puro — saiu da Meituan, uma empresa de delivery de comida. Isso diz muito sobre quanta capacidade de treino já está distribuída na economia chinesa.
Onde a LongCat-2.0 entra na corrida open source chinesa
Ela não chega num vácuo. Chega num mercado lotado e quente.
Os chineses hoje seguram quatro das cinco primeiras posições em modelos open-weight. O cenário recente:
- DeepSeek V4 (24/abr/2026) — apostou em preço e raciocínio algorítmico, resetou o piso de custo por token.
- GLM 5.2 da Z.ai (13/jun/2026) — líder de contexto e qualidade de loop agêntico, integrado ao Hermes Agent em dias.
- Qwen3.5 e Kimi K2.6 — cada um forte numa dimensão diferente.
A LongCat-2.0 se encaixa como a aposta de escala + agêntico + contexto longo: o maior modelo do grupo em parâmetros totais, com 1M de janela nativa e foco declarado em coding. Ela não tenta ser a mais barata nem a mais "raciocínio puro". Tenta ser a que aguenta tarefa longa e complexa rodando barato graças ao MoE.
Pra você que constrói: isso significa mais uma opção open-weight séria, com licença MIT, que dá pra rodar self-hosted ou consumir via API sem depender de um único fornecedor americano. A diversidade de modelos bons e abertos é a melhor notícia que um time de produto pode receber. Menos lock-in, mais alavanca de negociação, mais lugar pra otimizar custo.
O que essa história ensina pra quem constrói com IA
Tira três lições daqui, e nenhuma delas é "use a LongCat".
Primeira: o modelo é commodity, a engenharia em volta não é. Um MoE de 1,6T near-frontier apareceu disfarçado, liderou rankings e virou open source MIT em questão de meses. O diferencial nunca foi ter acesso ao modelo da moda. É o que você constrói em cima — contexto, recuperação, avaliação, orquestração de ferramenta, segurança.
Segunda: leia o trato antes de jogar dado no modelo. Modelo stealth grátis loga tudo de volta pro lab. Modelo bom e barato pode estar treinando no seu código. Não é paranoia, é o termo de uso. Trate dado proprietário com a mesma seriedade num modelo anônimo e num modelo de marca.
Terceira: a corrida open source chinesa mudou o tabuleiro. Quando um modelo near-frontier sai com peso aberto e licença permissiva, treinado sem NVIDIA, a pergunta deixa de ser "qual API eu chamo" e vira "qual modelo eu controlo". Essa é uma decisão de arquitetura, não de marketing.
E é exatamente esse tipo de decisão — escolher modelo, montar o harness, ligar tudo num produto que aguenta produção — que a gente vai construir do zero, ao vivo, no Do prompt ao harness: construindo um agent de vendas: dois dias montando um agent integrado a um e-commerce, do primeiro prompt até o harness rodando. Porque saber qual modelo lidera o OpenRouter essa semana é trivia. Saber transformar isso em produto é engenharia.
O owl-alpha sumiu. A LongCat-2.0 ficou. E o próximo modelo fantasma já deve estar rodando na sua frente agora mesmo, com outro nome de bicho, esperando alguém perceber.
{AI Engineer} — apaixonado por Laravel, arquitetura de software e construir produtos com impacto. Compartilho aqui tutoriais, descobertas e reflexões sobre o dia a dia de engenharia.
Você também pode gostar
GPT 5.6 foi lançado: Sol, Terra e Luna, preços e tudo o que sabemos (rastreador)
O GPT 5.6 foi lançado em três modelos (Sol, Terra e Luna), com acesso restrito pelo governo dos EUA. O que se confirmou dos vazamentos, os preços e o que ainda é incógnita.
Fable 5 bloqueado: o OpenRouter Fusion prova que painel de modelos já supera qualquer frontier
O Claude Fable 5 durou três dias disponível antes de ser bloqueado pelo governo dos EUA. Enquanto isso, o OpenRouter publicou dados que mudam a pergunta: e se painel de modelos baratos já superar qualquer frontier solo em deep research?
Modelos de IA open source valem a pena em 2026? A conta real de rodar local
Modelos open source fecharam o gap em 2026. Mas "open source" não é "local" e "local" não é "de graça". A conta honesta de quando rodar LLM local compensa: custo, privacidade e velocidade.
Claude Opus 4.8 vs Minimax M3 vs Qwen 3: paguei caro, paguei barato e rodei de graça
Construí o mesmo encurtador de links três vezes, sem mão humana no código, com Opus 4.8 (US$100/mês), Minimax M3 (US$20) e Qwen 3.6 local na RTX 4080. Tempo, resultado e veredito honesto sobre pago, barato e de graça.