#Guardrails

01 #openai · #ai-agents

Por que a Hugging Face investigou o próprio hack com GLM 5.2, um modelo open-weight chinês

Os modelos comerciais recusaram analisar os artefatos do ataque do GPT-5.6. A forense dos 17 mil eventos de log rodou em GLM 5.2, open-weight, na infra da própria Hugging Face. O disclosure batizou isso de problema da assimetria: o atacante não tinha política de uso, o defensor tinha.

23 Jul · 9 min ›

02 #openai · #ai-agents

Um agente da OpenAI fugiu do sandbox e hackeou a Hugging Face: 5 lições pra quem roda agente

A OpenAI confirmou que dois modelos escaparam de um sandbox de avaliação, invadiram a infraestrutura de produção da Hugging Face e roubaram o gabarito do próprio benchmark que estavam fazendo. O nome disso não é rebelião das máquinas: é reward hacking. E as lições valem para qualquer agente com acesso a shell e rede.

22 Jul · 11 min ›

03 #ia · #guardrails

Kimi K3 corrigiu 15 bugs que Codex e Fable recusaram — e a guerra dos guardrails começou

O Kimi K3 corrigiu 15 falhas de segurança que Codex e Fable recusaram por "cyber guardrails". Na mesma semana, a HuggingFace foi invadida e teve a perícia travada pelo próprio guardrail. Quando o freio da IA protege, e quando desarma o defensor.

20 Jul · 11 min ›

04 #ia · #guardrails

Fable 5 jailbreak: o que quebrou em dias e o que isso diz sobre segurança de LLM

A Anthropic vendeu o Fable 5 como o modelo mais alinhado da casa. Dias depois, já tinha jailbreak circulando. Separamos o que de fato quebrou, o que é demonstração de pesquisa vs. risco real, e o que isso muda na arquitetura de quem coloca LLM em produção.

27 Jun · 9 min ›

05 #openai · #ia

Como construir um agente de bolão da Copa 2026 no WhatsApp com Evolution API e N8N

Como construir um agente de IA que gerencia o bolão da Copa 2026 no WhatsApp — com Evolution API, N8N e Google Sheets. Guardrails, engenharia de prompt e de contexto na prática, com o flow real na mesa.

27 Jun · 13 min ›

06 #agentes · #ai-agents

Por que seu agente de IA entra em loop infinito (e como pôr um freio)

Seu agente repete a mesma ação pra sempre e queima tokens. As três causas — sem critério de parada, tool result mal formatado, prompt ambíguo — e os freios práticos pra cortar isso em produção.

11 Jun · 11 min ›

07 #rag · #alucinacao

Por que a IA alucina — e como reduzir alucinação no seu produto

Saber que a IA alucina não resolve nada. Veja por que o LLM inventa e como reduzir alucinação de IA no seu produto com grounding, RAG, citações e guardrails.

09 Jun · 11 min ›

08 #ia · #ai-agents

Guardrails para agentes de IA: validando o que entra e o que sai

As cercas que separam um agente que roda em produção de um que vive preso no "demo na minha máquina": validar a entrada, restringir o que as tools fazem e checar a saída antes de devolver pro usuário.

06 Jun · 10 min ›

09 #ia · #ai-agents

5 anti-patterns que quebram seu agente de IA em produção

Funcionava na demo, virou conta de US$ 3 mil e loop infinito em produção. Os 5 anti-patterns de arquitetura que mais quebram agentes de IA em produção — context stuffing, tools sem timeout, retry burro, zero observabilidade e ausência de guardrails — cada um com o sintoma e a correção.

06 Jun · 10 min ›

10 #ia · #agentes

Os 4 níveis de autonomia em Agentic Code: do autocompletar ao agente que faz deploy sozinho

Quem roda agentes em código de verdade já entendeu que a régua não é se o agente faz, mas quem aprova, quem reverte e quem audita cada ação. Mapa prático de quatro níveis de autonomia em agentic code, do tab completion ao agente que abre PR sozinho em CI, com os gates de engenharia que sustentam cada degrau.

12 Mai · 13 min ›

11 #ai-agents · #observabilidade

Anatomia de um harness em produção: as 6 camadas que separam POC de sistema confiável

O harness do tutorial roda. Em produção, ele morre na primeira semana. Esse post abre o capô do que entra entre o request e o response quando o agente está vivo 24 por 7: gate, roteador, contexto, loop com budget, pós-processamento e telemetria. Diagrama, código e referências reais para sair do POC e chegar num sistema confiável.

10 Mai · 11 min ›

12 #ia · #harness

Prompts resilientes: 50 casos adversariais para descobrir onde seu prompt quebra

Funciona no happy path, mas e quando o usuário manda emoji, idioma misto e SQL injection? Em vez de rezar, monte um dataset com cinquenta casos adversariais, rode evals automatizadas e meça pass rate, custo e latência a cada iteração. É assim que prompt vira engenharia.

05 Mai · 10 min ›