Mistral OCR 4: testei o novo modelo e ele lê PDF melhor que o ChatGPT?
OCR sempre foi a parte chata do pipeline de documentos.
Você tem um PDF. Precisa do texto. No meio do caminho tem tabela torta, carimbo, nota fiscal escaneada de lado e aquela página que alguém fotografou com a mão tremendo. A extração funciona em 80% dos casos e te abandona exatamente nos 20% que importam.
No dia 23 de junho de 2026 a Mistral lançou o Mistral OCR 4 e ele foi direto pro topo do Hacker News — 476 pontos. A promessa: leitura de documento de ponta, estruturada, e rodando barato. A pergunta que todo mundo fez no fórum foi a mesma que vou responder aqui: isso lê PDF melhor que jogar o arquivo no ChatGPT ou no Gemini?
Spoiler: a resposta não é sim nem não. É "depende do que você chama de ler".
O que a Mistral lançou (e por que o HN surtou)
O anúncio oficial traz números que explicam a tração. O OCR 4 lidera o OlmOCRBench com 85,20 e o OmniDocBench com 93,07. E o dado que mais pesa: anotadores humanos independentes preferiram o OCR 4 a todo sistema de OCR e document-AI testado, com 72% de win rate na média.
O preço é a outra metade da história. US$ 4 por 1.000 páginas na API, caindo para US$ 2 com o desconto de Batch API. Pra você ter referência, AWS Textract e Google Document AI podem custar de US$ 1,50 a US$ 15 por 1.000 páginas dependendo de quais features (tabelas, formulários) você liga. O OCR 4 entrega tudo num preço fixo e previsível.
O pacote básico:
- 170 idiomas em 10 grupos linguísticos.
- Formatos PDF, DOC, PPT e OpenDocument.
- Self-hosting num container único — o documento sensível nunca sai da sua infra.
E tem prova de campo, não só benchmark de laboratório. A Mistral cita a Rogo com 8x menos custo e 17x menos latência versus parsers agênticos, e a Anaqua medindo cerca de 4x mais rápido por página que o provedor anterior.
Isso já responde por que subiu no HN. Mas não responde a pergunta do título. Pra isso precisa entender o que mudou de verdade.
OCR de verdade não é "jogar o PDF no ChatGPT"
Aqui mora a confusão que vejo dev cometendo todo dia.
Quando você sobe um PDF pro ChatGPT ou pro Gemini e pede o texto, você está usando um modelo de visão genérico. Ele trata o documento como prompt. Lê a imagem, gera tokens, devolve um markdown. Funciona surpreendentemente bem em página limpa.
O problema é o que acontece quando ele fica em dúvida.
Um modelo generativo, quando não tem certeza de um trecho, não para e avisa. Ele completa. Inventa um número plausível na tabela, troca o cabeçalho, repete uma linha, ou simplesmente engole o rodapé. Isso é alucinação — e num pipeline de documento é veneno, porque o erro chega silencioso, com cara de texto correto.
OCR dedicado é outro paradigma. Em vez de devolver um fluxo de texto e torcer, o OCR 4 devolve uma representação em camadas: cada bloco da página é localizado com um bounding box, classificado por tipo (título, tabela, equação, assinatura) e recebe um score de confiança por página e por palavra.
Conceito técnico: o modelo não te entrega só o "o quê", ele te entrega o "onde" e o "quão certo". Aplicação prática: você consegue rotear automaticamente os blocos de baixa confiança pra revisão humana e auto-aprovar os de confiança alta. Impacto no produto: dá pra construir um pipeline de nota fiscal ou contrato que sabe onde ele próprio está inseguro, em vez de um que erra calado.
A saída estruturada é o pulo do gato pra RAG
Se você só quer copiar o texto de um PDF, qualquer LLM resolve. A diferença aparece quando esse texto vira insumo de um sistema.
Pensa num RAG. Você fatia o documento em chunks e indexa. Se a sua extração devolveu um blocão de texto plano, seus chunks são burros — cortam tabela no meio, misturam título com parágrafo, perdem a estrutura que dá sentido ao conteúdo.
O OCR 4 devolve primitivos tipados. Título é título. Tabela é tabela. Isso vira unidade de retrieval melhor: você indexa a tabela como tabela, cita a página exata, e ainda destaca a região no documento original porque tem o bounding box. Resposta com proveniência verificável, não com "confia em mim".
Na API isso é direto. O modelo é o mistral-ocr-latest, e os parâmetros de Document AI deixam você passar um JSON schema próprio pra extração estruturada:
from mistralai import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
resp = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": "https://exemplo.com/nota-fiscal.pdf",
},
include_image_base64=True,
)
for page in resp.pages:
for block in page.blocks:
# cada bloco vem com tipo, bounding box e confiança
if block.confidence < 0.85:
enviar_para_revisao(block)
else:
indexar(block)
Repara no if block.confidence < 0.85. Esse if é exatamente o que você não consegue escrever quando a sua extração é um vision LLM cuspindo markdown. É a diferença entre um pipeline que você confia em produção e um que você reza pra não quebrar.
"Melhor que o ChatGPT/Gemini?" — depende, e isso importa
Agora a parte antihype, porque benchmark de fabricante é sempre vendido no melhor ângulo.
Tem comparação independente que não favorece a Mistral. A Reducto testou versões anteriores do Mistral OCR contra o Gemini 2.0 Flash em 1.000 documentos e achou o Mistral 43,4% menos preciso, com alucinações sérias: derrubando header e footer, classificando a primeira tabela como imagem, repetindo conteúdo com cabeçalho errado. E um teste da Koncile colocou o Mistral em 63,75% de confiabilidade contra 57,5% do ChatGPT — ou seja, nenhum dos dois é mágica. O Mistral acertou 98,75% em transcrição pura, mas perdeu 27,5% dos dados em campos posicionados.
Como reconciliar isso com os 72% de win rate do OCR 4? Duas coisas.
Primeiro: o OCR 4 é uma geração nova, e o salto que a Mistral mostra é justamente em estrutura e confiança, não só em transcrição bruta. As comparações independentes acima são de versões anteriores — então leve como aviso de que OCR é problema difícil, não como veredito sobre o 4.
Segundo, e mais importante pra você: a pergunta certa não é "qual ganha o benchmark". É "qual ferramenta encaixa no seu problema".
- Precisa transcrever uma página limpa, uma vez, sem pipeline? Joga no ChatGPT e segue a vida.
- Precisa processar 50 mil notas fiscais por mês, com auditoria, citação e dado sensível que não pode sair da sua infra? Aí um OCR dedicado, estruturado, com confidence score e self-host ganha de lavada — não por ser "mais inteligente", mas por ser operável.
A pergunta do título tem uma armadilha embutida. "Ler" pra um humano é entender. "Ler" pra um produto é extrair de forma confiável, estruturada e barata, em escala. São coisas diferentes.
Quando vale plugar o Mistral OCR 4 na sua stack
Resumo prático, sem enrolação.
Vale a pena olhar o OCR 4 se: você tem volume de documento, precisa de saída estruturada pra alimentar RAG ou automação, se importa com proveniência/citação, ou tem requisito de privacidade que exige rodar on-premise. O preço previsível e o container único são argumentos fortes pra produção.
Não precisa correr se: seu uso é esporádico, página limpa, sem pipeline. O modelo de visão que você já usa resolve, e você economiza uma integração.
E em qualquer caso: valide com os seus documentos antes de confiar. Pega seus 20% chatos — a nota fiscal torta, o contrato escaneado, a tabela mergeada — e mede. Benchmark público é ponto de partida, não garantia. Quem decide se a ferramenta serve é o seu dataset, não o leaderboard.
Porque é aí que o OCR para de ser a "parte chata" e vira a fundação de algo maior. Um pipeline que lê documento de forma estruturada e confiável é o que permite construir um agente que age sobre ele — preenche formulário, cruza dados, dispara ação — em vez de só transcrever. É exatamente esse salto, do dado bruto ao agente em produção, que a gente coloca a mão na massa no workshop Do Prompt ao Harness: construindo um Agent de Vendas, construindo um agente de ponta a ponta — do prompt até o harness que segura ele de pé.
O OCR 4 não é fórmula mágica. É engenharia de documento ficando boa o suficiente pra você parar de gambiarrar a extração e começar a construir produto em cima dela.
E essa, sim, é a parte interessante.
{AI Engineer} — apaixonado por Laravel, arquitetura de software e construir produtos com impacto. Compartilho aqui tutoriais, descobertas e reflexões sobre o dia a dia de engenharia.
Você também pode gostar
Fable 5 bloqueado: o OpenRouter Fusion prova que painel de modelos já supera qualquer frontier
O Claude Fable 5 durou três dias disponível antes de ser bloqueado pelo governo dos EUA. Enquanto isso, o OpenRouter publicou dados que mudam a pergunta: e se painel de modelos baratos já superar qualquer frontier solo em deep research?
Claude Opus 4.8 chegou: o que muda de verdade pra quem entrega IA em produção
A Anthropic lançou o Claude Opus 4.8 hoje. Filtramos o que importa pra quem coda e roda agentes: liderança no SWE-Bench Pro, 84% em browser-agent, tool calling com menos passos, 4x menos bug sem comentar, multimodal 61% mais barato e Dynamic Workflows com centenas de subagentes no Claude Code, tudo no mesmo preço do 4.7.
Code Review com IA sem virar carimbador: padrões que pegam bug e ignoram estilo
Todo PR abre, o bot comenta a mesma coisa: considere adicionar testes, refatore isso, verifique aquilo. Em duas semanas o time muta o canal. Code review com IA não é problema de modelo, é problema de filtro. Neste post: prompt em três camadas, ferramentas que validam antes de palpitar, scoring de confiança 0 a 100 com threshold de 80, workflow Laravel + Claude no GitHub Actions pronto para colar e uma métrica honesta de precision e recall do bot.
Google I/O 2026: 7 anúncios que mudam o trabalho do AI engineer brasileiro
Os sete movimentos de plataforma do Google I/O 2026 que mudam o trabalho do AI engineer brasileiro, com comparativo Gemini 3.5 Flash x Sonnet 4.5 x GPT-5.5 em três tarefas backend reais e o que ignorar do hype enterprise.