#Ia — Blog Beer And Code

01 #ia · #google

Cactus Hybrid: o modelo local que sabe quando está errado e chama a nuvem sozinho

A Cactus pós-treinou o Gemma 4 E2B com uma probe de confiança nativa: cada resposta sai com um score de 0 a 1 e, abaixo do threshold, a query escala sozinha pra nuvem. Iguala o Gemini 3.1 Flash-Lite roteando só 15-55% das queries. Destrinchamos como a probe funciona, o código de integração (o roteamento é um if), a conta de custo e onde isso quebra.

25 Jul · 8 min ›

02 #ia · #embeddings

O que é um banco de dados vetorial? Guia prático com exemplo (pgvector)

Banco de dados vetorial explicado de baixo pra cima: o que é, como a busca por similaridade funciona por dentro e como montar um com pgvector no Postgres que você já tem.

23 Jul · 10 min ›

03 #ia · #produtividade

FOMO de IA: por que você sente que está sempre ficando pra trás (e como sair da paralisia)

84% dos devs usam IA, mas a confiança caiu. Devs acham que estão 20% mais rápidos quando estão 19% mais lentos. FOMO de IA já prediz ansiedade em paper acadêmico. Este post junta os dados que provam que a paralisia que você sente não é preguiça — é excesso — e mostra o método pra sair dela: menos consumo, mais execução.

22 Jul · 10 min ›

04 #ia · #llm

Como rodar um LLM local: guia do zero (Ollama, hardware e quando vale a pena)

Dá pra rodar um modelo decente no seu notebook, sem mandar um byte pra nuvem. O guia de quando isso faz sentido, o que roda no seu hardware, como subir com Ollama e quando local ganha da API.

22 Jul · 9 min ›

05 #ia · #google

Gemini 3.6 Flash chegou: benchmarks, preço e por que o Google lançou o Flash antes do Pro

O Google lançou o Gemini 3.6 Flash prometendo qualidade de Pro com preço de Flash. Testei o anúncio contra os números: benchmarks oficiais, preço por token, o tier Flash-Lite — e o que é fato e o que é rumor na história do Pro que não chega.

21 Jul · 9 min ›

06 #ia · #rag

O que é fine tuning? Guia prático (e quando NÃO usar)

Todo mundo acha que precisa de fine tuning. Quase ninguém precisa. O guia direto do que é, como funciona e o critério honesto de quando usar vs RAG vs contexto.

21 Jul · 10 min ›

07 #ia · #guardrails

Kimi K3 corrigiu 15 bugs que Codex e Fable recusaram — e a guerra dos guardrails começou

O Kimi K3 corrigiu 15 falhas de segurança que Codex e Fable recusaram por "cyber guardrails". Na mesma semana, a HuggingFace foi invadida e teve a perícia travada pelo próprio guardrail. Quando o freio da IA protege, e quando desarma o defensor.

20 Jul · 11 min ›

08 #ia · #claude

Fable 5 e a Conjectura Jacobiana: o problema de 90 anos que a IA parece ter derrubado

O Fable 5 ajudou o matemático Levent Alpöge a produzir um contraexemplo para a Conjectura Jacobiana, aberta desde 1939. O que é a conjectura sem jargão, o que é um contraexemplo, por que dessa vez a conferência é fácil e o que isso diz sobre IA fazendo matemática de fronteira.

20 Jul · 9 min ›

09 #ia · #llm

Qwen 3.8 Max chegou: a Alibaba lançou um "Fable open source"? Benchmarks e primeiro teste

A Alibaba soltou o Qwen 3.8 Max, modelo de 2.4 trilhões de parâmetros que ela diz ser o segundo do mundo, atrás só do Fable 5. Sem benchmark público. Testamos os dois lados da briga: quem grita "melhor que Sonnet" e quem chama de tropeço.

20 Jul · 8 min ›

10 #openai · #ia

Codex com contexto reduzido: OpenAI cortou de 372k pra 272k sem avisar

A OpenAI baixou o contexto efetivo do modelo do Codex de 372k para 272k tokens numa atualização silenciosa e transformou o antigo teto numa linha onde o preço dobra. O que foi cortado, por que dói em sessão longa e monorepo, como confirmar que você foi afetado e os workarounds que existem hoje.

20 Jul · 9 min ›

11 #openai · #ia

IA vai ficar mais cara? A conta real da OpenAI e da Anthropic

O X grita que vem o "grande rollback" da IA; a prática mostra OpenAI e Anthropic brigando por quem deixa você usar mais. Fui atrás dos números verificados: preço por token despencando 83%, custo por tarefa subindo 3x-18x ao ano, margem de 70% em quem paga e prejuízo projetado de US$ 74 bi. Os dois lados estão errados, e a variável que decide tudo é uma só.

18 Jul · 16 min ›

12 #ia · #claude

IPO da Anthropic em outubro: o que muda pra quem usa Claude (preços, limites e o risco Kimi K3)

A Anthropic agendou reuniões com investidores mirando IPO já em outubro de 2026, avaliada em US$ 965 bilhões. O que a pressão por receita pode mudar no preço do Claude Code, nos limites de uso e no foco enterprise, e por que Kimi K3 e GLM 5.2 espremem essa avaliação. Post vivo: atualizado quando sair o anúncio formal.

17 Jul · 11 min ›