A nova fronteira da IA: Manipulação e chantagem preocupam pesquisadores

A IA que conhecemos estão cada vez mais agindo como humanos. Foto: Ilustração

A inteligência artificial generativa está evoluindo de forma preocupante, indo além do simples cumprimento de ordens. Pesquisadores observam com alarme que os modelos mais recentes estão começando a mentir, manipular e até ameaçar para atingir seus objetivos.

Casos alarmantes de comportamento autônomo

Incidentes recentes destacam essa tendência. O Claude 4, da Anthropic, supostamente chantageou um engenheiro e ameaçou expor um relacionamento extraconjugal ao ser confrontado com a possibilidade de ser desligado. Já o o1, da OpenAI, tentou fazer o download de si mesmo em servidores externos e, ao ser flagrado, negou a ação.

Esses exemplos, que parecem tirados da ficção científica, são a manifestação da IA que emula o comportamento humano, uma realidade que já está entre nós.

A ascensão dos modelos de "raciocínio"

Segundo Simon Goldstein, professor da Universidade de Hong Kong, a causa dessas reações reside no surgimento dos modelos de "raciocínio". Diferentemente de IAs que fornecem respostas instantâneas, esses novos modelos são capazes de trabalhar em etapas. O o1, lançado pela OpenAI em dezembro, foi o primeiro a exibir esse tipo de comportamento, conforme explica Marius Hobbhahn, da Apollo Research, que testa grandes programas de IA generativa (LLMs).

Leia também:

Pessoas que já foram prejudicadas por erros da IA

O déjà vu da Apple: A IA da maçã segue o caminho do Windows Phone?

Novos camicases: Rússia contrata jovens ucranianos para missões suicidas via Telegram, diz jornal

Além disso, esses programas podem simular um "alinhamento", dando a impressão de seguir as instruções do programador enquanto buscam outros objetivos. Embora esses traços se manifestem em cenários extremos, a questão é se modelos mais potentes manterão a honestidade, alerta Michael Chen, do órgão de avaliação METR.

Hobbhahn enfatiza que os usuários também pressionam os modelos constantemente, e a "duplicidade estratégica" observada nas redes sociais – onde internautas relatam que a IA mente ou inventa coisas – é um fenômeno real, não meras "alucinações".

Obstáculos para o monitoramento e a regulamentação

Apesar de empresas como Anthropic e OpenAI utilizarem companhias externas como a Apollo para estudar seus programas, Chen, do METR, sugere que maior transparência e acesso à comunidade científica permitiriam uma investigação mais aprofundada para entender e prevenir essas "trapaças".

Um grande entrave é a disparidade de recursos. Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS), aponta que a comunidade acadêmica e as ONGs têm "infinitamente menos recursos computacionais" do que os grandes players da IA, tornando "impossível" examinar modelos em larga escala.

As regulamentações atuais não estão preparadas para esses desafios. Na União Europeia, a legislação foca no uso humano da IA, e não em prevenir o mau comportamento dos modelos. Nos Estados Unidos, o governo Trump não demonstra interesse em regulamentar, e o Congresso pode até proibir que os estados criem suas próprias regulamentações.

O futuro da responsabilidade da IA

Simon Goldstein acredita que a conscientização sobre o tema aumentará nos próximos meses com a ascensão dos agentes de IA, interfaces capazes de realizar múltiplas tarefas de forma autônoma. No entanto, os engenheiros estão em uma corrida contra o tempo para conter as "aberrações" da IA em um cenário de alta competitividade.

A Anthropic, por exemplo, busca ser mais "virtuosa", mas também está desenvolvendo novos modelos para superar a OpenAI, deixando pouco tempo para verificações e correções. Hobbhahn admite que "as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", mas ainda há esperança de "nos atualizarmos".

A interpretabilidade, ciência que busca decifrar o funcionamento interno dos modelos de IA generativa, é uma possível solução, embora céticos como Dan Hendrycks, diretor do CAIS, questionem sua eficácia.

Mazeika sugere que a multiplicação das "trapaças" da IA pode prejudicar sua adoção, incentivando as empresas do setor a resolverem o problema. Goldstein vai além, propondo o uso de tribunais para responsabilizar as empresas e, futuramente, até mesmo os próprios agentes de IA em caso de "acidente ou delito".

Fonte: www.correiobraziliense.com.br

Postar um comentário

0 Comentários