~ / noticias /mistral-ocr-4-le-pdf-melhor-que-chatgpt $ _

Mistral OCR 4: testei o novo modelo e ele lê PDF melhor que o ChatGPT?

Lucas Souza Lucas Souza 8 min de leitura Notícias
Mistral OCR 4: testei o novo modelo e ele lê PDF melhor que o ChatGPT?

OCR sempre foi a parte chata do pipeline de documentos.

Você tem um PDF. Precisa do texto. No meio do caminho tem tabela torta, carimbo, nota fiscal escaneada de lado e aquela página que alguém fotografou com a mão tremendo. A extração funciona em 80% dos casos e te abandona exatamente nos 20% que importam.

No dia 23 de junho de 2026 a Mistral lançou o Mistral OCR 4 e ele foi direto pro topo do Hacker News — 476 pontos. A promessa: leitura de documento de ponta, estruturada, e rodando barato. A pergunta que todo mundo fez no fórum foi a mesma que vou responder aqui: isso lê PDF melhor que jogar o arquivo no ChatGPT ou no Gemini?

Spoiler: a resposta não é sim nem não. É "depende do que você chama de ler".

O que a Mistral lançou (e por que o HN surtou)

O anúncio oficial traz números que explicam a tração. O OCR 4 lidera o OlmOCRBench com 85,20 e o OmniDocBench com 93,07. E o dado que mais pesa: anotadores humanos independentes preferiram o OCR 4 a todo sistema de OCR e document-AI testado, com 72% de win rate na média.

O preço é a outra metade da história. US$ 4 por 1.000 páginas na API, caindo para US$ 2 com o desconto de Batch API. Pra você ter referência, AWS Textract e Google Document AI podem custar de US$ 1,50 a US$ 15 por 1.000 páginas dependendo de quais features (tabelas, formulários) você liga. O OCR 4 entrega tudo num preço fixo e previsível.

O pacote básico:

  • 170 idiomas em 10 grupos linguísticos.
  • Formatos PDF, DOC, PPT e OpenDocument.
  • Self-hosting num container único — o documento sensível nunca sai da sua infra.

E tem prova de campo, não só benchmark de laboratório. A Mistral cita a Rogo com 8x menos custo e 17x menos latência versus parsers agênticos, e a Anaqua medindo cerca de 4x mais rápido por página que o provedor anterior.

Isso já responde por que subiu no HN. Mas não responde a pergunta do título. Pra isso precisa entender o que mudou de verdade.

OCR de verdade não é "jogar o PDF no ChatGPT"

Aqui mora a confusão que vejo dev cometendo todo dia.

Quando você sobe um PDF pro ChatGPT ou pro Gemini e pede o texto, você está usando um modelo de visão genérico. Ele trata o documento como prompt. Lê a imagem, gera tokens, devolve um markdown. Funciona surpreendentemente bem em página limpa.

O problema é o que acontece quando ele fica em dúvida.

Um modelo generativo, quando não tem certeza de um trecho, não para e avisa. Ele completa. Inventa um número plausível na tabela, troca o cabeçalho, repete uma linha, ou simplesmente engole o rodapé. Isso é alucinação — e num pipeline de documento é veneno, porque o erro chega silencioso, com cara de texto correto.

OCR dedicado é outro paradigma. Em vez de devolver um fluxo de texto e torcer, o OCR 4 devolve uma representação em camadas: cada bloco da página é localizado com um bounding box, classificado por tipo (título, tabela, equação, assinatura) e recebe um score de confiança por página e por palavra.

Conceito técnico: o modelo não te entrega só o "o quê", ele te entrega o "onde" e o "quão certo". Aplicação prática: você consegue rotear automaticamente os blocos de baixa confiança pra revisão humana e auto-aprovar os de confiança alta. Impacto no produto: dá pra construir um pipeline de nota fiscal ou contrato que sabe onde ele próprio está inseguro, em vez de um que erra calado.

A saída estruturada é o pulo do gato pra RAG

Se você só quer copiar o texto de um PDF, qualquer LLM resolve. A diferença aparece quando esse texto vira insumo de um sistema.

Pensa num RAG. Você fatia o documento em chunks e indexa. Se a sua extração devolveu um blocão de texto plano, seus chunks são burros — cortam tabela no meio, misturam título com parágrafo, perdem a estrutura que dá sentido ao conteúdo.

O OCR 4 devolve primitivos tipados. Título é título. Tabela é tabela. Isso vira unidade de retrieval melhor: você indexa a tabela como tabela, cita a página exata, e ainda destaca a região no documento original porque tem o bounding box. Resposta com proveniência verificável, não com "confia em mim".

Na API isso é direto. O modelo é o mistral-ocr-latest, e os parâmetros de Document AI deixam você passar um JSON schema próprio pra extração estruturada:

from mistralai import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

resp = client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": "https://exemplo.com/nota-fiscal.pdf",
    },
    include_image_base64=True,
)

for page in resp.pages:
    for block in page.blocks:
        # cada bloco vem com tipo, bounding box e confiança
        if block.confidence < 0.85:
            enviar_para_revisao(block)
        else:
            indexar(block)

Repara no if block.confidence < 0.85. Esse if é exatamente o que você não consegue escrever quando a sua extração é um vision LLM cuspindo markdown. É a diferença entre um pipeline que você confia em produção e um que você reza pra não quebrar.

"Melhor que o ChatGPT/Gemini?" — depende, e isso importa

Agora a parte antihype, porque benchmark de fabricante é sempre vendido no melhor ângulo.

Tem comparação independente que não favorece a Mistral. A Reducto testou versões anteriores do Mistral OCR contra o Gemini 2.0 Flash em 1.000 documentos e achou o Mistral 43,4% menos preciso, com alucinações sérias: derrubando header e footer, classificando a primeira tabela como imagem, repetindo conteúdo com cabeçalho errado. E um teste da Koncile colocou o Mistral em 63,75% de confiabilidade contra 57,5% do ChatGPT — ou seja, nenhum dos dois é mágica. O Mistral acertou 98,75% em transcrição pura, mas perdeu 27,5% dos dados em campos posicionados.

Como reconciliar isso com os 72% de win rate do OCR 4? Duas coisas.

Primeiro: o OCR 4 é uma geração nova, e o salto que a Mistral mostra é justamente em estrutura e confiança, não só em transcrição bruta. As comparações independentes acima são de versões anteriores — então leve como aviso de que OCR é problema difícil, não como veredito sobre o 4.

Segundo, e mais importante pra você: a pergunta certa não é "qual ganha o benchmark". É "qual ferramenta encaixa no seu problema".

  • Precisa transcrever uma página limpa, uma vez, sem pipeline? Joga no ChatGPT e segue a vida.
  • Precisa processar 50 mil notas fiscais por mês, com auditoria, citação e dado sensível que não pode sair da sua infra? Aí um OCR dedicado, estruturado, com confidence score e self-host ganha de lavada — não por ser "mais inteligente", mas por ser operável.

A pergunta do título tem uma armadilha embutida. "Ler" pra um humano é entender. "Ler" pra um produto é extrair de forma confiável, estruturada e barata, em escala. São coisas diferentes.

Quando vale plugar o Mistral OCR 4 na sua stack

Resumo prático, sem enrolação.

Vale a pena olhar o OCR 4 se: você tem volume de documento, precisa de saída estruturada pra alimentar RAG ou automação, se importa com proveniência/citação, ou tem requisito de privacidade que exige rodar on-premise. O preço previsível e o container único são argumentos fortes pra produção.

Não precisa correr se: seu uso é esporádico, página limpa, sem pipeline. O modelo de visão que você já usa resolve, e você economiza uma integração.

E em qualquer caso: valide com os seus documentos antes de confiar. Pega seus 20% chatos — a nota fiscal torta, o contrato escaneado, a tabela mergeada — e mede. Benchmark público é ponto de partida, não garantia. Quem decide se a ferramenta serve é o seu dataset, não o leaderboard.

Porque é aí que o OCR para de ser a "parte chata" e vira a fundação de algo maior. Um pipeline que lê documento de forma estruturada e confiável é o que permite construir um agente que age sobre ele — preenche formulário, cruza dados, dispara ação — em vez de só transcrever. É exatamente esse salto, do dado bruto ao agente em produção, que a gente coloca a mão na massa no workshop Do Prompt ao Harness: construindo um Agent de Vendas, construindo um agente de ponta a ponta — do prompt até o harness que segura ele de pé.

O OCR 4 não é fórmula mágica. É engenharia de documento ficando boa o suficiente pra você parar de gambiarrar a extração e começar a construir produto em cima dela.

E essa, sim, é a parte interessante.

Lucas Souza
Lucas Souza

{AI Engineer} — apaixonado por Laravel, arquitetura de software e construir produtos com impacto. Compartilho aqui tutoriais, descobertas e reflexões sobre o dia a dia de engenharia.

Você também pode gostar

Fable 5 bloqueado: o OpenRouter Fusion prova que painel de modelos já supera qualquer frontier
Notícias

Fable 5 bloqueado: o OpenRouter Fusion prova que painel de modelos já supera qualquer frontier

O Claude Fable 5 durou três dias disponível antes de ser bloqueado pelo governo dos EUA. Enquanto isso, o OpenRouter publicou dados que mudam a pergunta: e se painel de modelos baratos já superar qualquer frontier solo em deep research?

· 7 min
Claude Opus 4.8 chegou: o que muda de verdade pra quem entrega IA em produção
Notícias

Claude Opus 4.8 chegou: o que muda de verdade pra quem entrega IA em produção

A Anthropic lançou o Claude Opus 4.8 hoje. Filtramos o que importa pra quem coda e roda agentes: liderança no SWE-Bench Pro, 84% em browser-agent, tool calling com menos passos, 4x menos bug sem comentar, multimodal 61% mais barato e Dynamic Workflows com centenas de subagentes no Claude Code, tudo no mesmo preço do 4.7.

· 8 min
Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo
Tutoriais

Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo

Todo PR abre, o bot comenta a mesma coisa: considere adicionar testes, refatore isso, verifique aquilo. Em duas semanas o time muta o canal. Code review com IA não é problema de modelo, é problema de filtro. Neste post: prompt em três camadas, ferramentas que validam antes de palpitar, scoring de confiança 0 a 100 com threshold de 80, workflow Laravel + Claude no GitHub Actions pronto para colar e uma métrica honesta de precision e recall do bot.

· 15 min
Google I/O 2026: 7 anúncios que mudam o trabalho do AI engineer brasileiro
Notícias

Google I/O 2026: 7 anúncios que mudam o trabalho do AI engineer brasileiro

Os sete movimentos de plataforma do Google I/O 2026 que mudam o trabalho do AI engineer brasileiro, com comparativo Gemini 3.5 Flash x Sonnet 4.5 x GPT-5.5 em três tarefas backend reais e o que ignorar do hype enterprise.

· 11 min

VirguIA

beer & code assistant

conectando…

Não foi possível iniciar o chat agora.

tocando