#Llm — Blog Beer And Code

01 #ia · #google

Cactus Hybrid: o modelo local que sabe quando está errado e chama a nuvem sozinho

A Cactus pós-treinou o Gemma 4 E2B com uma probe de confiança nativa: cada resposta sai com um score de 0 a 1 e, abaixo do threshold, a query escala sozinha pra nuvem. Iguala o Gemini 3.1 Flash-Lite roteando só 15-55% das queries. Destrinchamos como a probe funciona, o código de integração (o roteamento é um if), a conta de custo e onde isso quebra.

25 Jul · 8 min ›

02 #llm · #modelos-open-source

EUA ameaçam sancionar IA chinesa open source: o que muda pra quem usa Kimi e DeepSeek

Os EUA acusam formalmente labs chineses de roubo de tecnologia, a China rebate e OpenAI e Anthropic se uniram contra os modelos open-weight. Separamos fato de rumor nas sanções à IA chinesa open source e mostramos o playbook pra quem roda Kimi K3, DeepSeek ou Qwen em produção: o que a sanção alcança (e o que não) num stack no Brasil.

23 Jul · 10 min ›

03 #llm · #modelos-open-source

Laguna S 2.1: o open-weight de 118B que custa 10x menos (e onde ele apanha)

A poolside lançou o Laguna S 2.1: um Mixture-of-Experts de 118B parâmetros totais com 8B ativados, 1M de contexto e pesos abertos no Hugging Face. Fui olhar os benchmarks reais em vez da manchete: onde ele ganha, onde apanha feio, e por que a história de verdade é o preço, não a performance.

22 Jul · 7 min ›

04 #ia · #llm

Como rodar um LLM local: guia do zero (Ollama, hardware e quando vale a pena)

Dá pra rodar um modelo decente no seu notebook, sem mandar um byte pra nuvem. O guia de quando isso faz sentido, o que roda no seu hardware, como subir com Ollama e quando local ganha da API.

22 Jul · 9 min ›

05 #ia · #rag

O que é fine tuning? Guia prático (e quando NÃO usar)

Todo mundo acha que precisa de fine tuning. Quase ninguém precisa. O guia direto do que é, como funciona e o critério honesto de quando usar vs RAG vs contexto.

21 Jul · 10 min ›

06 #ia · #guardrails

Kimi K3 corrigiu 15 bugs que Codex e Fable recusaram — e a guerra dos guardrails começou

O Kimi K3 corrigiu 15 falhas de segurança que Codex e Fable recusaram por "cyber guardrails". Na mesma semana, a HuggingFace foi invadida e teve a perícia travada pelo próprio guardrail. Quando o freio da IA protege, e quando desarma o defensor.

20 Jul · 11 min ›

07 #ia · #llm

Qwen 3.8 Max chegou: a Alibaba lançou um "Fable open source"? Benchmarks e primeiro teste

A Alibaba soltou o Qwen 3.8 Max, modelo de 2.4 trilhões de parâmetros que ela diz ser o segundo do mundo, atrás só do Fable 5. Sem benchmark público. Testamos os dois lados da briga: quem grita "melhor que Sonnet" e quem chama de tropeço.

20 Jul · 8 min ›

08 #openai · #ia

IA vai ficar mais cara? A conta real da OpenAI e da Anthropic

O X grita que vem o "grande rollback" da IA; a prática mostra OpenAI e Anthropic brigando por quem deixa você usar mais. Fui atrás dos números verificados: preço por token despencando 83%, custo por tarefa subindo 3x-18x ao ano, margem de 70% em quem paga e prejuízo projetado de US$ 74 bi. Os dois lados estão errados, e a variável que decide tudo é uma só.

18 Jul · 16 min ›

09 #ia · #llm

Kimi K3 chegou: o "Fable 5 chinês" que bate o Opus 4.8 — o que é real nos benchmarks

A Moonshot AI lançou o Kimi K3: 2,8 trilhões de parâmetros, pesos abertos e 3º lugar na Artificial Analysis, acima do Claude Opus 4.8. Separamos o benchmark verificável do hype — incluindo o "5x mais barato" que não fecha na conta.

17 Jul · 10 min ›

10 #ia · #exportacao

Fable 5 voltou: cota, créditos à parte e o que muda na prática

O Fable 5 voltou em 1º de julho, global, depois de 19 dias fora do ar — com cota, créditos à parte e um guarda-costas chamado Opus 4.8. E agora a Anthropic anunciou: a partir de 20/07 o modelo fica incluso em todos os planos Max e Team Premium, a 50% dos limites, com US$ 100 de crédito único pra quem é Pro.

15 Jul · 11 min ›

11 #ia · #llm

Claude Opus 5: do rumor ao lançamento — o tracker completo (encerrado em 24/07)

Tracker encerrado: o Claude Opus 5 foi lançado oficialmente em 24/07/2026, dentro da janela apostada. Este post preserva a linha do tempo do rumor — o leak do "Honeycomb" no Cursor, as odds do Polymarket e o que cada claim acertou ou errou. A cobertura completa do lançamento, com benchmarks e preço, está no post novo.

15 Jul · 12 min ›

12 #ai-agents · #llm

Prompt injection: o que é e os principais ataques de 2026 (e como se defender)

Seu agente lê um README e obedece a uma instrução escondida nele. A busca por "prompt injection" multiplicou por 8 no Brasil em 2026. O guia do que é, dos ataques que marcaram o ano e da defesa em camadas que de fato funciona.

15 Jul · 14 min ›