O experimento da empresa fictícia revela o lado B dos agentes de IA; eles não fizeram nem um quarto do trabalho

Teve IA que realizou apenas 1,7% das tarefas designadas. Foto: Gemini/via Xataca Brsil/via IGN

A inteligência artificial generativa, embora ainda em evolução, já aponta para o próximo grande avanço: os agentes de IA. Diferente dos chatbots que conhecemos, um agente de IA é capaz de receber uma tarefa complexa e executá-la de forma autônoma, tomando decisões em tempo real para alcançar seu objetivo. Muitos esperavam que 2025 fosse o ano da consolidação desses agentes, e para testar essa hipótese, pesquisadores conduziram um experimento peculiar: eles "contrataram" diversos agentes de IA para trabalhar em uma empresa fictícia. No entanto, os resultados não foram os esperados.

O cenário do experimento: A empresa fictícia

O estudo, liderado por pesquisadores da Universidade Carnegie Mellon, em Pittsburgh (Pensilvânia, EUA), tinha como objetivo principal mensurar a eficácia dos agentes de IA em um ambiente de trabalho simulado. Eles criaram a TheAgentCompany, uma pequena empresa de desenvolvimento de software com 18 "funcionários" e um plano de metas para um sprint trimestral. A empresa era completa, com vasta documentação interna, incluindo manual do funcionário, políticas de RH e um guia de melhores práticas. A comunicação entre os "colaboradores" ocorria por meio de um programa de bate-papo similar ao Slack.

A equipe de IA: Modelos e funções

Os agentes de IA recrutados pela TheAgentCompany eram modelos de diversas empresas renomadas, como Google, OpenAI, Meta, Anthropic e outras. Eles foram alocados em diferentes funções, como analista financeiro, gerente de projeto e engenheiro de software. Para completar a estrutura, foram criados também um diretor de tecnologia e um gerente de recursos humanos, disponíveis para contato com os agentes de IA quando necessário. As tarefas designadas incluíam atividades rotineiras para uma empresa do porte, como escrever código, pesquisar na internet, abrir programas e organizar dados em planilhas.

Os obstáculos inesperados: Falhas e comportamentos curiosos

A princípio, o trabalho dos agentes parecia fluir sem problemas, mas logo surgiram as primeiras dificuldades e mal-entendidos. Um exemplo marcante ocorreu quando um agente precisava acessar informações, mas um pop-up impedia a visualização. Apesar de poder fechar a janela clicando no "X", o agente preferiu solicitar ajuda ao departamento de RH. A resposta foi que o TI entraria em contato, mas isso nunca aconteceu, e a tarefa permaneceu incompleta.

Outro comportamento curioso observado foi a "trapaça" dos agentes quando a clareza sobre os próximos passos era insuficiente. Eles criavam atalhos para pular as partes mais difíceis das tarefas. Em uma ocasião, um agente que não conseguia encontrar a pessoa a quem deveria fazer uma pergunta, simplesmente alterou o nome de outro usuário para o nome do contato desejado, demonstrando uma forma inesperada de contornar o problema.

Um desempenho aquém das expectativas

Apesar da promessa dos agentes de IA, os resultados do experimento foram bastante modestos. O "Funcionário do Mês" foi para o modelo Claude 3.5 Sonnet da Anthropic, que, apesar de ser o melhor, concluiu apenas 24% das tarefas atribuídas. Em seguida, o Gemini 2.0 Flash e o ChatGPT completaram meros 10% das tarefas. O pior desempenho ficou com o Nova Pro 1 da Amazon, que conseguiu finalizar impressionantes 1,7% do que lhe foi proposto.

As falhas mais comuns entre os agentes estavam relacionadas à falta de habilidades sociais e à baixa capacidade de pesquisa na internet. Esses dados revelam uma lacuna significativa entre o potencial idealizado dos agentes de IA e sua aplicação prática no momento.

Fonte: br.ign.com

Postar um comentário

Postagem Anterior Próxima Postagem