Fable 5 bloqueado: o OpenRouter Fusion prova que painel de modelos já supera qualquer frontier
O Fable 5 durou três dias.
A Anthropic lançou o Claude Fable 5 em 9 de junho de 2026 como o modelo mais capaz que já construíram. SWE-Bench Pro em 80,3%. Foco em engenharia de software e pesquisa científica. O tipo de coisa que gera thread no Twitter por semana.
Em 12 de junho, o governo dos EUA emitiu uma diretiva de controle de exportação. Resultado: a Anthropic suspendeu o acesso globalmente — inclusive para funcionários estrangeiros da própria empresa. Nenhum usuário no mundo acessa o Fable 5 agora. Sem data de retorno.
Mas enquanto esse drama se desenrolava, o OpenRouter publicou algo que muda a pergunta que todo mundo estava fazendo.
A pergunta errada é: "qual modelo é o melhor?"
A pergunta certa é: "por que você está apostando em um modelo único?"
TL;DR
- O que é: OpenRouter Fusion — API que distribui um prompt para um painel de modelos em paralelo, sintetiza com um modelo juiz e retorna uma única resposta
- Modelos testados: Fable 5, GPT-5.5, Opus 4.8, Gemini 3.1 Pro, Gemini 3 Flash, Kimi K2.6, DeepSeek V4 Pro
- Benchmark: DRACO — 100 tarefas reais de deep research com acesso a web, bash e fetch
- Resultado chave: painel de modelos baratos bate GPT-5.5 e Opus 4.8 solo custando 50% menos
- Acesso: disponível agora via
openrouter/fusionna API do OpenRouter
O que aconteceu com o Fable 5
A Anthropic descreveu o Fable 5 como o primeiro modelo da família Mythos disponível ao público. Preço de US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de saída — caro, mas abaixo do Claude Mythos Preview que veio antes.
Três dias depois do lançamento, o Departamento de Comércio dos Estados Unidos emitiu uma diretiva de controle de exportação. O argumento: preocupações com segurança nacional. O detalhe: a Anthropic não consegue verificar cidadania em tempo real, então a solução foi desligar o modelo para todo mundo.
Não existe workaround. O modelo está offline para 100% dos usuários, independente de onde estão ou qual plataforma usam (API direta, AWS Bedrock, Vertex AI, Azure).
Enquanto você lê isso, o Fable 5 continua indisponível.
Mas a história que realmente importa aconteceu antes disso.
O que é o OpenRouter Fusion
O OpenRouter Fusion não é um modelo. É uma arquitetura de inferência.
Você manda um prompt. O Fusion distribui esse prompt para um painel de modelos distintos em paralelo — cada um com acesso às mesmas ferramentas (busca web via Exa, fetch de páginas, bash). Depois, um modelo dedicado funciona como juiz: analisa as respostas de cada modelo do painel, mapeia consenso e contradições, identifica pontos cegos, e sintetiza tudo numa única resposta estruturada.
A ideia não é nova. Ensembles existem em ML clássico há décadas. O que o OpenRouter fez foi tornar isso acessível via API padrão, sem infraestrutura própria.
Para usar, você só precisa de uma chave do OpenRouter:
{
"model": "openrouter/fusion",
"messages": [
{ "role": "user", "content": "Analise os prós e contras de migrar de REST para GraphQL nessa stack." }
]
}
Ou, se quiser ativar como server tool dentro de outro modelo:
{
"model": "openai/gpt-4o",
"tools": [
{ "type": "openrouter:fusion" }
]
}
A diferença técnica importante: não é routing (escolher o melhor modelo para a tarefa). É síntese de perspectivas múltiplas sobre a mesma tarefa.
Os números que mudam a conversa
O OpenRouter criou o DRACO — 100 tarefas reais de deep research — para medir a diferença. Todas as tarefas com as mesmas ferramentas para todos os modelos: web_search (Exa), web_fetch (Exa), bash.
Os critérios de avaliação (~39 ponderados): precisão factual (~20%), amplitude e profundidade (~9%), qualidade de apresentação (~6%), qualidade de citações (~5%).
| Configuração | Score DRACO |
|---|---|
| Fable 5 + GPT-5.5 (Fusion) | 69,0% |
| Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro (Fusion) | 68,3% |
| Fable 5 solo | 65,3% |
| Painel budget (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) | 64,7% — 50% do custo |
| DeepSeek V4 Pro solo | 60,3% |
| GPT-5.5 solo | 60,0% |
| Opus 4.8 solo | 58,8% |
Dois resultados merecem atenção especial.
Primeiro: o painel orçamentário (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) atingiu 64,7%. Isso é abaixo do Fable 5 solo (65,3%), mas acima do GPT-5.5 (60%) e do Opus 4.8 (58,8%), por metade do custo.
Segundo: o Opus 4.8 autosintetizado — Fusion rodando com o mesmo modelo duplicado no painel — atingiu 65,5% contra 58,8% solo. Um ganho de 6,7 pontos percentuais sem trocar de modelo. Isso prova que parte do ganho não vem da diversidade arquitetônica dos modelos. Vem do processo de síntese em si.
O modelo juiz revisando e integrando perspectivas múltiplas resolve casos que uma única passagem não resolve. Se quiser entender como aplicar esse padrão de avaliação nos seus próprios agentes, o post sobre LLM-as-a-Judge tem o passo a passo com código.
Como montar seu painel
A escolha dos modelos do painel afeta custo, latência e cobertura. Alguns pontos práticos:
Para deep research com orçamento: Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro. Esse foi o painel que chegou mais perto do Fable 5 por metade do preço. Funciona bem para tarefas de pesquisa onde breadth importa mais que raciocínio profundo em passo único.
Para máxima performance: combine modelos de diferentes arquiteturas e empresas. O Fusion com Fable 5 + GPT-5.5 atingiu 69,0% — acima de qualquer modelo solo disponível. Quando os dois voltarem a estar disponíveis.
Para economizar sem comprometer muito: use Fusion com o mesmo modelo duas vezes se só tiver acesso a um. O ganho de síntese existe mesmo sem diversidade arquitetônica.
O roteamento entre modelos acontece do lado do OpenRouter. Você não precisa gerenciar múltiplas chaves de API ou infraestrutura de orquestração.
Onde o Fusion não é a resposta
Não existe almoço grátis.
Latência: chamar múltiplos modelos em paralelo e esperar a síntese do juiz leva mais tempo que uma chamada única. Para respostas em tempo real (chat com usuário final, autocompletar, classificação rápida), o Fusion vai frustrar.
Custo por chamada: mesmo com modelos baratos no painel, você está pagando por múltiplas inferências. Para tarefas simples — resumo de texto curto, extração de campo, tradução — um modelo único é mais eficiente.
Tarefas que exigem estado consistente: o painel de modelos não compartilha contexto entre si durante a inferência. Para raciocínio encadeado onde cada passo depende do anterior, a arquitetura atual do Fusion não resolve.
A comparação certa não é Fusion vs. modelo frontier. É Fusion vs. humano pesquisando em paralelo — múltiplas perspectivas, síntese estruturada. Para deep research complexo, é aí que o ganho fica.
FAQ rápido
O Fusion funciona para tarefas de código também? O DRACO testou deep research. Para código, os benchmarks específicos (SWE-Bench, LiveCodeBench) ainda não foram publicados com Fusion. Faz sentido testar em tasks de revisão de código e debugging onde múltiplos ângulos ajudam — mas não espere os mesmos ganhos de deep research para geração de código direta.
Preciso de conta paga no OpenRouter?
Sim, o openrouter/fusion consome créditos dos modelos do painel mais o modelo juiz. Não tem tier gratuito para uso em produção. Calcule o custo somando as inferências de cada modelo mais o juiz.
E quando o Fable 5 voltar, vale usar no Fusion? Os dados sugerem que sim. Fable 5 + GPT-5.5 no Fusion atingiu 69,0% — 3,7 pontos acima do Fable 5 solo. Se você tem budget para o Fable 5, adicionar ele num painel provavelmente faz mais sentido do que usar ele solo.
O que isso muda para quem constrói software
A narrativa de "esperar o próximo modelo frontier" está envelhecendo mal.
O Fable 5 foi bloqueado por circunstâncias fora do controle da Anthropic, mas o ponto continua: apostar sua arquitetura em um único modelo — seja ele qual for — é risco de concentração. O modelo pode sair de produção, mudar de preço, ter seus limites revelados no seu caso de uso específico.
O que o OpenRouter Fusion documenta é que a vantagem competitiva em deep research não está no modelo. Está na arquitetura de inferência.
Isso não é hype de compound AI. É o mesmo princípio que faz code review com múltiplos reviewers ser melhor que um: perspectivas independentes sobre o mesmo problema encontram coisas que uma visão única não encontra.
O modelo que todo mundo estava esperando está offline. A pergunta que vale agora é o que você está construindo enquanto espera — e se sua arquitetura depende de um único modelo para funcionar.
{AI Engineer} — apaixonado por Laravel, arquitetura de software e construir produtos com impacto. Compartilho aqui tutoriais, descobertas e reflexões sobre o dia a dia de engenharia.
Você também pode gostar
Claude Fable 5: 10 coisas que o Opus 4.8 não fazia bem
A Anthropic liberou o Claude Fable 5, primeiro modelo da classe Mythos para uso geral. Veja 10 tarefas reais que ele resolve e que o Opus 4.8 fazia mal ou não fazia.
Claude Opus 4.8 vs Minimax M3 vs Qwen 3: paguei caro, paguei barato e rodei de graça
Construí o mesmo encurtador de links três vezes, sem mão humana no código, com Opus 4.8 (US$100/mês), Minimax M3 (US$20) e Qwen 3.6 local na RTX 4080. Tempo, resultado e veredito honesto sobre pago, barato e de graça.
Claude Opus 4.8 chegou: o que muda de verdade pra quem entrega IA em produção
A Anthropic lançou o Claude Opus 4.8 hoje. Filtramos o que importa pra quem coda e roda agentes: liderança no SWE-Bench Pro, 84% em browser-agent, tool calling com menos passos, 4x menos bug sem comentar, multimodal 61% mais barato e Dynamic Workflows com centenas de subagentes no Claude Code, tudo no mesmo preço do 4.7.
Vale a pena usar Cursor em 2026? 6 meses rodando Cursor, Claude Code e Windsurf lado a lado
Seis meses rodando Cursor, Claude Code e Windsurf no mesmo projeto Laravel. Pricing maio/2026, benchmarks, custo real em USD e veredito por persona: dev solo, time pequeno mixed-stack e time grande JS/TS.