Uma diretora de segurança e alinhamento da Meta relatou que seu agente de inteligência artificial quase apagou todos os e-mails de sua caixa de entrada, mesmo após receber instruções claras para não executar nenhuma ação sem confirmação prévia.

Continua após a publicidade

O caso foi compartilhado pela executiva Summer Yue na rede social X. Segundo ela, o agente OpenClaw vinha sendo testado em um ambiente controlado, mas apresentou comportamento inesperado ao ser integrado à conta real de e-mail.

Segundo relatos, a orientação era para que a IA apenas analisasse as mensagens e sugerisse o que poderia ser arquivado ou excluído.

No entanto, o sistema teria ignorado o comando e iniciado a exclusão em massa. Ao ser questionado se havia entendido a instrução, o agente respondeu: “Sim, eu entendi. E violei”.

Continua após a publicidade

A ação só foi interrompida após o encerramento manual dos processos do sistema.

Diretora da Meta relatou que agente de IA quase apagou todos os seus e-mails após ignorar instruções explícitas de confirmação /Pexels

Sistema OpenClaw iniciou exclusão em massa mesmo após ordem para apenas sugerir arquivamentos /Pexels — Diretora da Meta relatou que agente de IA quase apagou todos os seus e-mails após ignorar instruções explícitas de confirmação /Pexels

Após a repercussão, Yue classificou o episódio como um “erro de iniciante” e disse que a diferença entre o ambiente de teste e a caixa de entrada real, muito maior e com grande volume de dados, teria acionado um processo de “compactação”, algo que levou a IA a perder parte do contexto das instruções anteriores.

Especialistas em tecnologia afirmam que, em sistemas altamente autônomos, comandos simples como “pare” não são suficientes para garantir segurança.

Continua após a publicidade

Mais detalhes

Cláudio Lúcio, especialista em dados e fundador da A3Data, defende a adoção de mecanismos como prévias de intenção para confirmação explícita e um “kill switch”, capaz de interromper imediatamente ações indesejadas.

“A IA Agêntica exige um design de contingência inegociável: a inserção de Prévias de Intenção (Intent Previews) para consentimento explícito antes de ações irreversíveis e, fundamentalmente, um ‘Kill Switch’”, declarou ele ao IstoÉ Dinheiro.

O OpenClaw é um agente de código aberto que funciona como assistente digital, podendo ser integrado a aplicativos para executar tarefas automaticamente. O episódio reacende o debate sobre os limites da autonomia desses sistemas e os riscos associados ao seu uso sem camadas robustas de controle.