Fable 5 bloqueado: OpenRouter Fusion supera modelos frontier

O Fable 5 durou três dias.

A Anthropic lançou o Claude Fable 5 em 9 de junho de 2026 como o modelo mais capaz que já construíram. SWE-Bench Pro em 80,3%. Foco em engenharia de software e pesquisa científica. O tipo de coisa que gera thread no Twitter por semana.

Em 12 de junho, o governo dos EUA emitiu uma diretiva de controle de exportação. Resultado: a Anthropic suspendeu o acesso globalmente — inclusive para funcionários estrangeiros da própria empresa. Nenhum usuário no mundo acessa o Fable 5 agora. Sem data de retorno.

Mas enquanto esse drama se desenrolava, o OpenRouter publicou algo que muda a pergunta que todo mundo estava fazendo.

A pergunta errada é: "qual modelo é o melhor?"

A pergunta certa é: "por que você está apostando em um modelo único?"

TL;DR

O que é: OpenRouter Fusion — API que distribui um prompt para um painel de modelos em paralelo, sintetiza com um modelo juiz e retorna uma única resposta
Modelos testados: Fable 5, GPT-5.5, Opus 4.8, Gemini 3.1 Pro, Gemini 3 Flash, Kimi K2.6, DeepSeek V4 Pro
Benchmark: DRACO — 100 tarefas reais de deep research com acesso a web, bash e fetch
Resultado chave: painel de modelos baratos bate GPT-5.5 e Opus 4.8 solo custando 50% menos
Acesso: disponível agora via openrouter/fusion na API do OpenRouter

O que aconteceu com o Fable 5

A Anthropic descreveu o Fable 5 como o primeiro modelo da família Mythos disponível ao público. Preço de US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de saída — caro, mas abaixo do Claude Mythos Preview que veio antes.

Três dias depois do lançamento, o Departamento de Comércio dos Estados Unidos emitiu uma diretiva de controle de exportação. O argumento: preocupações com segurança nacional. O detalhe: a Anthropic não consegue verificar cidadania em tempo real, então a solução foi desligar o modelo para todo mundo.

Não existe workaround. O modelo está offline para 100% dos usuários, independente de onde estão ou qual plataforma usam (API direta, AWS Bedrock, Vertex AI, Azure).

Enquanto você lê isso, o Fable 5 continua indisponível.

Mas a história que realmente importa aconteceu antes disso.

O que é o OpenRouter Fusion

O OpenRouter Fusion não é um modelo. É uma arquitetura de inferência.

Você manda um prompt. O Fusion distribui esse prompt para um painel de modelos distintos em paralelo — cada um com acesso às mesmas ferramentas (busca web via Exa, fetch de páginas, bash). Depois, um modelo dedicado funciona como juiz: analisa as respostas de cada modelo do painel, mapeia consenso e contradições, identifica pontos cegos, e sintetiza tudo numa única resposta estruturada.

A ideia não é nova. Ensembles existem em ML clássico há décadas. O que o OpenRouter fez foi tornar isso acessível via API padrão, sem infraestrutura própria.

Para usar, você só precisa de uma chave do OpenRouter:

{
  "model": "openrouter/fusion",
  "messages": [
    { "role": "user", "content": "Analise os prós e contras de migrar de REST para GraphQL nessa stack." }
  ]
}

Ou, se quiser ativar como server tool dentro de outro modelo:

{
  "model": "openai/gpt-4o",
  "tools": [
    { "type": "openrouter:fusion" }
  ]
}

A diferença técnica importante: não é routing (escolher o melhor modelo para a tarefa). É síntese de perspectivas múltiplas sobre a mesma tarefa.

Os números que mudam a conversa

O OpenRouter criou o DRACO — 100 tarefas reais de deep research — para medir a diferença. Todas as tarefas com as mesmas ferramentas para todos os modelos: web_search (Exa), web_fetch (Exa), bash.

Os critérios de avaliação (~39 ponderados): precisão factual (~20%), amplitude e profundidade (~9%), qualidade de apresentação (~6%), qualidade de citações (~5%).

Configuração	Score DRACO
Fable 5 + GPT-5.5 (Fusion)	69,0%
Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro (Fusion)	68,3%
Fable 5 solo	65,3%
Painel budget (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro)	64,7% — 50% do custo
DeepSeek V4 Pro solo	60,3%
GPT-5.5 solo	60,0%
Opus 4.8 solo	58,8%

Dois resultados merecem atenção especial.

Primeiro: o painel orçamentário (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) atingiu 64,7%. Isso é abaixo do Fable 5 solo (65,3%), mas acima do GPT-5.5 (60%) e do Opus 4.8 (58,8%), por metade do custo.

Segundo: o Opus 4.8 autosintetizado — Fusion rodando com o mesmo modelo duplicado no painel — atingiu 65,5% contra 58,8% solo. Um ganho de 6,7 pontos percentuais sem trocar de modelo. Isso prova que parte do ganho não vem da diversidade arquitetônica dos modelos. Vem do processo de síntese em si.

O modelo juiz revisando e integrando perspectivas múltiplas resolve casos que uma única passagem não resolve. Se quiser entender como aplicar esse padrão de avaliação nos seus próprios agentes, o post sobre LLM-as-a-Judge tem o passo a passo com código.

▪ Clã Beer and Code

Não só acompanhe as novidades — domine. Engenharia de IA na prática, ao vivo, toda semana, na maior comunidade do Brasil.

Entrar no Clã

Como montar seu painel

A escolha dos modelos do painel afeta custo, latência e cobertura. Alguns pontos práticos:

Para deep research com orçamento: Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro. Esse foi o painel que chegou mais perto do Fable 5 por metade do preço. Funciona bem para tarefas de pesquisa onde breadth importa mais que raciocínio profundo em passo único.

Para máxima performance: combine modelos de diferentes arquiteturas e empresas. O Fusion com Fable 5 + GPT-5.5 atingiu 69,0% — acima de qualquer modelo solo disponível. Quando os dois voltarem a estar disponíveis.

Para economizar sem comprometer muito: use Fusion com o mesmo modelo duas vezes se só tiver acesso a um. O ganho de síntese existe mesmo sem diversidade arquitetônica.

O roteamento entre modelos acontece do lado do OpenRouter. Você não precisa gerenciar múltiplas chaves de API ou infraestrutura de orquestração.

Onde o Fusion não é a resposta

Não existe almoço grátis.

Latência: chamar múltiplos modelos em paralelo e esperar a síntese do juiz leva mais tempo que uma chamada única. Para respostas em tempo real (chat com usuário final, autocompletar, classificação rápida), o Fusion vai frustrar.

Custo por chamada: mesmo com modelos baratos no painel, você está pagando por múltiplas inferências. Para tarefas simples — resumo de texto curto, extração de campo, tradução — um modelo único é mais eficiente.

Tarefas que exigem estado consistente: o painel de modelos não compartilha contexto entre si durante a inferência. Para raciocínio encadeado onde cada passo depende do anterior, a arquitetura atual do Fusion não resolve.

A comparação certa não é Fusion vs. modelo frontier. É Fusion vs. humano pesquisando em paralelo — múltiplas perspectivas, síntese estruturada. Para deep research complexo, é aí que o ganho fica.

FAQ rápido

O Fusion funciona para tarefas de código também? O DRACO testou deep research. Para código, os benchmarks específicos (SWE-Bench, LiveCodeBench) ainda não foram publicados com Fusion. Faz sentido testar em tasks de revisão de código e debugging onde múltiplos ângulos ajudam — mas não espere os mesmos ganhos de deep research para geração de código direta.

Preciso de conta paga no OpenRouter? Sim, o openrouter/fusion consome créditos dos modelos do painel mais o modelo juiz. Não tem tier gratuito para uso em produção. Calcule o custo somando as inferências de cada modelo mais o juiz.

E quando o Fable 5 voltar, vale usar no Fusion? Os dados sugerem que sim. Fable 5 + GPT-5.5 no Fusion atingiu 69,0% — 3,7 pontos acima do Fable 5 solo. Se você tem budget para o Fable 5, adicionar ele num painel provavelmente faz mais sentido do que usar ele solo.

O que isso muda para quem constrói software

A narrativa de "esperar o próximo modelo frontier" está envelhecendo mal.

O Fable 5 foi bloqueado por circunstâncias fora do controle da Anthropic, mas o ponto continua: apostar sua arquitetura em um único modelo — seja ele qual for — é risco de concentração. O modelo pode sair de produção, mudar de preço, ter seus limites revelados no seu caso de uso específico.

O que o OpenRouter Fusion documenta é que a vantagem competitiva em deep research não está no modelo. Está na arquitetura de inferência.

Isso não é hype de compound AI. É o mesmo princípio que faz code review com múltiplos reviewers ser melhor que um: perspectivas independentes sobre o mesmo problema encontram coisas que uma visão única não encontra.

O modelo que todo mundo estava esperando está offline. A pergunta que vale agora é o que você está construindo enquanto espera — e se sua arquitetura depende de um único modelo para funcionar.