#Llm — Blog Beer And Code

13 #ia · #llm

Claude resolveu problema de física parado há 6 meses (e a conjectura de 12 anos de um Nobel)

Em duas semanas, dois físicos de elite — Giorgio Parisi (Nobel) e Yuji Tachikawa — creditaram ao Claude a solução de problemas travados há meses ou anos. O padrão importa mais que a manchete: problema maduro, confiança calibrada e verificação em loop, aplicável a qualquer trabalho técnico.

14 Jul · 10 min ›

14 #openai · #ia

GPT-5.6 "descobriu nova matemática"? O que Altman disse e o que os matemáticos responderam

Sam Altman disse que o GPT-5.6 descobriu matemática nova e a internet surtou. O que exatamente foi alegado, o que "descobrir matemática" significa pra um LLM, e por que os matemáticos pisam no freio.

07 Jul · 4 min ›

15 #ia · #llm

DeepSeek V4 Flash com 1M de contexto no seu RTX 5090: dá pra rodar local — mas tem um porém

O r/LocalLLaMA travou num feito: DeepSeek V4 Flash rodando 1M de tokens de contexto num único RTX 5090. É real, mas tem um asterisco que ninguém coloca no título. Separamos a engenharia de verdade do entusiasmo de thread: os números reais, o porém da RAM e quando a API sai mais barata.

03 Jul · 9 min ›

16 #ia · #llm

LongCat 2.0: o modelo fantasma owl-alpha que sumiu do OpenRouter era um MoE de 1,6 trilhão

O owl-alpha rodou disfarçado no OpenRouter por semanas, liderou rankings e sumiu. Era a LongCat 2.0 da Meituan: MoE de 1,6 trilhão de parâmetros, treinada sem NVIDIA. A história do modelo fantasma e o que ela ensina pra quem constrói com IA.

03 Jul · 8 min ›

17 #ia · #llm

DeepSeek V4 vai custar por horário de pico: o preço peak/valley que muda a conta do open source

A DeepSeek anunciou preço dinâmico por horário para a V4 — barato fora do pico, caro no pico, igual conta de luz. O que é o peak/valley, quanto cai fora do pico e a conta vs Claude Opus 4.8 pra dev brasileiro, com a pegadinha de fuso que joga a seu favor.

02 Jul · 7 min ›

18 #produto-ia · #llm

Claude Sonnet 5: como interpretar os benchmarks na prática

Saiu o Claude Sonnet 5. Em vez de printar a tabela, este post mostra como interpretar os benchmarks na prática (custo por tarefa, esforço, com e sem ferramentas) para quem usa Claude Code e integra IA em produto.

30 Jun · 9 min ›

19 #openai · #ai-agents

HP adotou a OpenAI Frontier. O que isso muda (e o que é só anúncio)

A HP Inc. virou uma das primeiras grandes a rodar a OpenAI Frontier, a plataforma de gestão de agentes da OpenAI. Separamos o que foi entregue do que é promessa, e o que isso revela sobre botar agente em produção.

30 Jun · 7 min ›

20 #ia · #exportacao

Anthropic com acesso bloqueado no Brasil: por que os EUA tiraram o Mythos e o Fable do ar (e o processo que quer reverter)

Os EUA mandaram a Anthropic desligar o Fable 5 e o Mythos 5 para qualquer estrangeiro — e o Brasil caiu no bloqueio por tabela. Uma empresa já processa o governo americano para derrubar a ordem. Explicamos o que a diretiva proíbe, por que você foi afetado e o que o processo pode mudar.

27 Jun · 11 min ›

21 #ia · #guardrails

Fable 5 jailbreak: o que quebrou em dias e o que isso diz sobre segurança de LLM

A Anthropic vendeu o Fable 5 como o modelo mais alinhado da casa. Dias depois, já tinha jailbreak circulando. Separamos o que de fato quebrou, o que é demonstração de pesquisa vs. risco real, e o que isso muda na arquitetura de quem coloca LLM em produção.

27 Jun · 9 min ›

22 #openai · #ia

GPT-5.6 liberado só com aval do governo dos EUA: o que muda pra quem constrói com IA

Pela primeira vez o governo dos EUA decidiu quem pode usar um modelo de IA antes do lançamento. O caso GPT-5.6, com fontes, e o que muda pra quem constrói software com IA.

26 Jun · 8 min ›

23 #openai · #ia

GPT-5.6: Sol, Terra ou Luna — qual modelo da OpenAI usar (e quanto custa cada um)

A OpenAI lançou o GPT-5.6 em três modelos: Sol, Terra e Luna. O que muda entre eles, quanto custa cada um e quando usar qual, sem hype.

26 Jun · 8 min ›

24 #openai · #ia

OpenAI Daybreak: o GPT-5.5-Cyber que caça e corrige vulnerabilidades sozinho

A OpenAI liberou o GPT-5.5-Cyber dentro do programa Daybreak, um modelo que acha, valida e corrige vulnerabilidades num fluxo automatizado. O que ele faz na prática, onde entra no fluxo do dev e até onde dá pra confiar correção de vuln a um modelo.

25 Jun · 8 min ›