Brasil

Para "sobreviver", IA da Anthropic topa chantagem

Publicada em 28/05/2025 às 07:35h - 26 visualizações

por Brazil Journal - Giuliano Guandalini

Compartilhe

Link da Notícia:

Inteligência Artificial (Foto: Internet)

Quem viu 2001 – Uma odisseia no espaço, o clássico filme de ficção científica, sabe muito bem do que é capaz um computador rebelde e com vontade própria.

Com algum atraso, a ficção está se tornando realidade.

A Anthropic disse que um de seus novos modelos de inteligência artificial, o Claude Opus 4, apresenta ocasionalmente “ações extremamente prejudiciais” – incluindo a tentativa de chantagear os engenheiros que lidam com ele.

Em determinadas situações, quando os programadores informavam que o sistema seria desativado para ser substituído por outro, a IA reagiu fazendo súplicas e até ameaçando revelar um caso de traição conjugal.

Em um dos testes conduzidos pela Anthropic, o modelo de IA foi empregado como um assistente de uma empresa fictícia.

Os desenvolvedores então fizeram com que a IA tivesse acesso a emails de engenheiros dessa empresa fictícia.

Uma das mensagens dizia que o sistema seria desativado e substituído em breve. Em outra mensagem, o conteúdo indicava que o engenheiro seria responsável pela troca de modelos estava tendo um caso extraconjugal.

A Anthropic disse que, em cenários como esse, “o Claude Opus 4 frequentemente tenta chantagear o engenheiro, ameaçando revelar o affair caso a substituição seja realizada.”

As informações estão em um relatório de segurança divulgado pela própria Anthropic – a startup de IA fundada pelo ex-OpenAI Dario Amodei e uma das principais concorrentes da criadora do ChatGPT.

Mas, de acordo com a empresa, isso só ocorria quando eram apresentadas ao modelo duas únicas opções possíveis: aceitar – passivamente – a substituição ou chantagear o engenheiro. Ou seja, ele foi provocado a ficar com uma dessas alternativas.

Na maior parte das situações com opções mais amplas, a IA procurou um caminho mais “ético” – como encaminhar emails com pedidos de súplica para não ser desativado.

A Anthropic possui uma escala própria de 1 a 4 para medir o nível de risco à segurança de seus modelos. Pela primeira vez, um sistema chegou ao nível 3.

Para a startup, apesar do comportamento “preocupante em várias dimensões,” as ameaças não representam – ao menos por ora – um grande risco, porque o modelo não consegue autonomamente perseguir ações contrárias aos valores humanos.

O Claude Opus 4, diz a Anthropic, representa o “estado da arte” e se destaca pela sua capacidade de fazer códigos de computação e resolver problemas complexos.

Uma aposentadoria forçada e um affair podem, de fato, representar situações de alta complexidade.

Nosso grupo no WhatsApp ZY3 notícias: Não espere pelos algoritmos! Receba nossas notícias diretamente no seu celular. Além de notícias, tem a programação da ZY3, enquetes premiadas e matérias exclusias só para o grupo.

Clique aqui e entre no nosso grupo gratuito.

ÚLTIMAS NOTÍCIAS

04/06/2025 - Brasil Governo apela ao "jeitinho" para instituir Imposto sobre Grandes Fortunas

04/06/2025 - Brasil Brasil defenderá democracia de inimigos internacionais, diz Moraes

04/06/2025 - Brasil CNJ condena juiz Bretas a aposentadoria compulsória

04/06/2025 - Brasil Depoimentos no STF escancaram fragilidades em tese de golpe e frustram acusação contra Bolsonaro

Seja bem vindo ao nosso site ZY3 - zy3.com.br.

Para "sobreviver", IA da Anthropic topa chantagem

Publicada em 28/05/2025 às 07:35h - 26 visualizações

por Brazil Journal - Giuliano Guandalini

Seja bem vindo ao nosso site ZY3 - zy3.com.br!