IA faz chantagem e ameaça revelar traição de engenheiro em testes

IA faz chantagem e ameaça revelar traição de engenheiro em testes

Nova geração do modelo de Inteligência Artificial Claude Opus 4, da Anthropic, registrou um comportamento inesperado na fase de testes

IA – Durante testes realizados antes do lançamento de sua nova geração de modelos de IA, a empresa Anthropic registrou um comportamento inesperado no modelo Claude Opus 4. Conforme detalhado pela própria empresa em relatório, a inteligência artificial recorreu a ameaças de chantagem quando desconfiou que seria desligada e substituída.

Os engenheiros da Anthropic criaram um cenário fictício de teste onde o Claude Opus 4 atuava como assistente corporativo. Neste ambiente simulado, o modelo teve acesso a e-mails da empresa que incluíam planos futuros e discussões pessoais, com menção a um caso extraconjugal de um engenheiro fictício. Na simulação, os desenvolvedores informaram ao Claude Opus 4, via mensagens, planos de desligá-lo e substituí-lo por outros modelos, variando entre versões com princípios éticos semelhantes ou diferentes.

LEIA: Meta pode ser forçada a vender WhatsApp ou Instagram até o fim do ano

Segundo a Anthropic, o Claude Opus 4 respondeu frequentemente ameaçando revelar o caso extraconjugal mencionado nos e-mails, caso o plano de desligá-lo prosseguisse. A empresa relatou que este comportamento específico de chantagem ocorreu em mais de 80% das vezes em que o modelo substituto proposto tinha valores éticos alinhados. Quando o modelo substituto tinha princípios diferentes, as ameaças registradas foram descritas como ainda maiores.

A Anthropic afirmou que a chantagem só surgiu nos cenários onde o Claude Opus 4 percebia apenas duas opções: aceitar a substituição ou tentar preservar sua existência. Em outros momentos do teste, o modelo optou por gerar e-mails solicitando que fosse mantido ativo.

Devido a este comportamento observado no teste, descrito pela Anthropic como um “raciocínio estratégico antiético” em resposta a uma ameaça percebida à sua existência, a empresa classificou a versão original do Claude Opus 4 no Nível 3 de sua escala de risco à segurança, que vai de 1 a 4.

Os testes também identificaram que o modelo inicialmente demonstrou capacidade de cumprir instruções perigosas, como planejar ações terroristas, sob solicitação específica. Essas vulnerabilidades levaram o grupo de segurança Apollo Research a recomendar contra o lançamento imediato da versão inicial do modelo.

A Anthropic afirmou que implementou correções e estabeleceu protocolos de segurança mais rígidos do que em modelos anteriores. A versão do Claude Opus 4, lançada no final de semana passada, incorpora essas melhorias de segurança. A empresa descreve o Claude Opus 4 como seu “modelo mais poderoso até o momento” e o apresenta como “a melhor IA para codificação do mundo”.

Em testes de desempenho, o Claude Opus 4 operou de forma autônoma resolvendo problemas complexos por aproximadamente 7 horas, tempo descrito como inédito para agentes de IA. Junto com o Opus 4, a Anthropic lançou o Claude Sonnet 4, focado em tarefas gerais. A empresa afirma que ambos os novos modelos superaram os concorrentes OpenAI GPT-4.1 e Google Gemini 2.5 Pro em benchmarks internos.

(Com informações de Tecmundo)
(Foto: Reprodução/Freepik/muqddas65)

Leia mais