~ / noticias /longcat-2-0-owl-alpha-openrouter $ _

LongCat 2.0: o modelo fantasma owl-alpha que sumiu do OpenRouter era um MoE de 1,6 trilhão

Lucas Souza Lucas Souza 8 min de leitura Notícias
LongCat 2.0: o modelo fantasma owl-alpha que sumiu do OpenRouter era um MoE de 1,6 trilhão

Por semanas, um modelo anônimo chamado owl-alpha apareceu no OpenRouter e começou a engolir tráfego. Devs testaram, gostaram, jogaram em produção. O bicho subiu nos rankings sem ninguém saber de quem era.

Depois sumiu do catálogo. Do nada.

O motivo? Não era um modelo qualquer. Era a LongCat-2.0 — um MoE de 1,6 trilhão de parâmetros da Meituan, revelado oficialmente no dia 30 de junho de 2026. O owl-alpha era a preview disfarçada dela, rodando na sua frente o tempo todo.

E essa história diz mais sobre como a indústria de IA funciona hoje do que o benchmark de qualquer modelo.

O que é um "modelo fantasma"

Aqui vai a parte que pouca gente explica direito: laboratórios testam modelos disfarçados na sua frente, e isso é prática comum.

No OpenRouter existe um provider chamado Stealth. A ideia é simples. Um lab quer feedback real — não bench sintético, não demo controlada. Quer saber como o modelo se comporta quando um dev de verdade joga um codebase quebrado, um prompt mal escrito e uma janela de contexto gigante em cima dele. Então sobe o modelo com um nome de fantasia, sem marca, e deixa a comunidade usar.

Não é a primeira vez. Em abril de 2025, dois modelos cloaked apareceram do mesmo jeito: Quasar Alpha e Optimus Alpha. Os dois eram da OpenAI — viraram o GPT-4.1 pouco depois. O padrão se repete: modelo anônimo, comunidade testa, identidade revelada no lançamento.

Tem um detalhe que todo dev precisa saber. Modelo stealth é "cloaked": prompts e completions são logados e mandados de volta pro lab. É feedback gratuito pra eles, e dado seu saindo de graça. A própria descrição do Quasar Alpha dizia isso na cara: "todos os prompts e completions são registrados pra que o lab entenda como está sendo usado".

Tradução prática: se você jogou código proprietário no owl-alpha achando que era só mais um modelo no menu, a Meituan provavelmente tem ele agora. Não é maldade. É o trato implícito de usar um modelo de graça antes do anúncio. Mas é um trato que muita gente assinou sem ler.

owl-alpha: o que a comunidade viu antes do nome

Antes de ter nome, o owl-alpha já era um monstro de tráfego.

Os números que circularam na revelação:

  • 10,1 trilhões de tokens por mês de throughput.
  • 559 bilhões de tokens por dia.
  • Crescimento de +242% no mês.
  • #1 em uso no Hermes Agent, #2 no Claude Code, #3 no OpenClaw.

A preview da LongCat-2.0 saiu em 24 de abril de 2026 e apareceu no OpenRouter como owl-alpha cerca de quatro dias depois. O acesso era gratuito, com cota diária por usuário. É exatamente a receita pra escalar adoção rápido: bom, grátis e sem fricção de cadastro.

A revelação veio do jeito que esse tipo de coisa sempre vem — pela comunidade. Gente cruzando o comportamento do modelo, o sumiço do nome no catálogo do OpenRouter e o anúncio iminente da Meituan. O owl-alpha desaparece, a LongCat-2.0 aparece, e a conta fecha.

A revelação: 1,6 trilhão de parâmetros, mas nem tudo liga ao mesmo tempo

Agora a engenharia. Porque "1,6 trilhão de parâmetros" soa absurdo até você entender o que é um MoE.

LongCat-2.0 é um Mixture-of-Experts. Tem 1,6 trilhão de parâmetros no total, mas só ativa em média ~48 bilhões por token — com um range dinâmico de 33B a 56B dependendo da dificuldade do que você pediu. Ou seja: o modelo é gigante na capacidade, mas barato no custo de inferência por token, porque ele só acende os "especialistas" certos pra cada pedaço da resposta.

É essa a sacada de arquitetura que permite um modelo desse tamanho rodar com latência decente em produção. Você não paga 1,6T de compute por token. Paga uns 48B.

Em cima disso, a Meituan colocou o que chama de LongCat Sparse Attention (LSA). A ideia: em vez de atenção quadrática (que explode quando o contexto cresce), o mecanismo seleciona só a informação relevante e reduz a complexidade de quadrática pra linear ao longo de toda a janela. E a janela é de 1 milhão de tokens, nativa — não enxertada com truque de extrapolação depois do treino.

Junte as duas coisas: MoE esparso pra baratear a inferência, atenção esparsa pra aguentar contexto longo. É um modelo desenhado de raiz pra trabalho agêntico — code generation, DevOps, loops longos de ferramenta — não pra ganhar concurso de chat.

A licença é MIT. Os pesos abertos. No momento em que esse post sai, a Meituan ainda está liberando os detalhes oficiais — então trate números finos como preliminares e confira a página do modelo no Hugging Face antes de cravar nada em produção.

Os benchmarks: near-frontier de verdade

Os números que a Meituan publicou colocam a LongCat-2.0 na briga de cima, não no pelotão de trás:

  • SWE-bench Pro: 59,5 — acima do GPT-5.5, que marca 58,6.
  • Terminal-Bench 2.1: 70,8.
  • SWE-bench Multilingual: 77,3.
  • BrowseComp: 79,9.

Repara no perfil: todos os benchmarks fortes são agênticos e de engenharia. SWE-bench é resolver issue de repo real. Terminal-Bench é tarefa de terminal de ponta a ponta. BrowseComp é navegação. Esse modelo não foi otimizado pra responder trivia bonita — foi otimizado pra fechar tarefa.

Faz sentido com o resto da história: o owl-alpha liderava justamente em Hermes Agent e Claude Code, que são usos agênticos. O benchmark e o tráfego real contam a mesma coisa.

O detalhe geopolítico: treinada sem uma única GPU NVIDIA

Esse é o ponto que faz a notícia sair do nicho técnico e virar manchete.

A LongCat-2.0 foi treinada inteiramente em chips chineses — entre 50 e 60 mil aceleradores domésticos, organizados no que a Meituan chama de "ASIC superpods". Zero NVIDIA. O pré-treino passou de 30 trilhões de tokens sem rollback e sem spike irrecuperável de loss — o que, pra quem já viu um treino grande dar pau, é uma afirmação ousada.

O recado é direto: o gargalo de hardware imposto pelos controles de exportação dos EUA não impediu um modelo de 1,6T near-frontier de sair de uma stack 100% chinesa. E não saiu de um lab de pesquisa puro — saiu da Meituan, uma empresa de delivery de comida. Isso diz muito sobre quanta capacidade de treino já está distribuída na economia chinesa.

Onde a LongCat-2.0 entra na corrida open source chinesa

Ela não chega num vácuo. Chega num mercado lotado e quente.

Os chineses hoje seguram quatro das cinco primeiras posições em modelos open-weight. O cenário recente:

  • DeepSeek V4 (24/abr/2026) — apostou em preço e raciocínio algorítmico, resetou o piso de custo por token.
  • GLM 5.2 da Z.ai (13/jun/2026) — líder de contexto e qualidade de loop agêntico, integrado ao Hermes Agent em dias.
  • Qwen3.5 e Kimi K2.6 — cada um forte numa dimensão diferente.

A LongCat-2.0 se encaixa como a aposta de escala + agêntico + contexto longo: o maior modelo do grupo em parâmetros totais, com 1M de janela nativa e foco declarado em coding. Ela não tenta ser a mais barata nem a mais "raciocínio puro". Tenta ser a que aguenta tarefa longa e complexa rodando barato graças ao MoE.

Pra você que constrói: isso significa mais uma opção open-weight séria, com licença MIT, que dá pra rodar self-hosted ou consumir via API sem depender de um único fornecedor americano. A diversidade de modelos bons e abertos é a melhor notícia que um time de produto pode receber. Menos lock-in, mais alavanca de negociação, mais lugar pra otimizar custo.

O que essa história ensina pra quem constrói com IA

Tira três lições daqui, e nenhuma delas é "use a LongCat".

Primeira: o modelo é commodity, a engenharia em volta não é. Um MoE de 1,6T near-frontier apareceu disfarçado, liderou rankings e virou open source MIT em questão de meses. O diferencial nunca foi ter acesso ao modelo da moda. É o que você constrói em cima — contexto, recuperação, avaliação, orquestração de ferramenta, segurança.

Segunda: leia o trato antes de jogar dado no modelo. Modelo stealth grátis loga tudo de volta pro lab. Modelo bom e barato pode estar treinando no seu código. Não é paranoia, é o termo de uso. Trate dado proprietário com a mesma seriedade num modelo anônimo e num modelo de marca.

Terceira: a corrida open source chinesa mudou o tabuleiro. Quando um modelo near-frontier sai com peso aberto e licença permissiva, treinado sem NVIDIA, a pergunta deixa de ser "qual API eu chamo" e vira "qual modelo eu controlo". Essa é uma decisão de arquitetura, não de marketing.

E é exatamente esse tipo de decisão — escolher modelo, montar o harness, ligar tudo num produto que aguenta produção — que a gente vai construir do zero, ao vivo, no Do prompt ao harness: construindo um agent de vendas: dois dias montando um agent integrado a um e-commerce, do primeiro prompt até o harness rodando. Porque saber qual modelo lidera o OpenRouter essa semana é trivia. Saber transformar isso em produto é engenharia.

O owl-alpha sumiu. A LongCat-2.0 ficou. E o próximo modelo fantasma já deve estar rodando na sua frente agora mesmo, com outro nome de bicho, esperando alguém perceber.

Lucas Souza
Lucas Souza

{AI Engineer} — apaixonado por Laravel, arquitetura de software e construir produtos com impacto. Compartilho aqui tutoriais, descobertas e reflexões sobre o dia a dia de engenharia.

Você também pode gostar

Curte cerveja e código? 🍺 Pergunta pra VirguIA como entrar no clã Beer and Code.

VirguIA

beer & code assistant

conectando…

Não foi possível iniciar o chat agora.

tocando