Apesar do entusiasmo generalizado em torno da inteligência artificial (IA), os agentes de IA autónomos ainda estão longe da perfeição. Um estudo recente revela uma taxa de insucesso surpreendentemente alta, o que questiona a sua capacidade para substituir humanos em tarefas mais complexas.
Uma taxa de erro de 70%...
Os agentes de IA falham muito mais do que acertam. Esta é a principal conclusão de um estudo recente conduzido por investigadores da Universidade Carnegie Mellon (UCM) e da Universidade de Duke, que decidiram testar se o alarido em torno desta tecnologia se justifica. De momento, a resposta parece ser negativa.
A inspiração para este trabalho, segundo Graham Neubig, professor na UCM, veio de um artigo da OpenAI que sugeria que tipos de trabalho poderiam ser substituídos por sistemas de IA. Contudo, Neubig criticou a metodologia, afirmando que "basicamente, limitaram-se a perguntar ao ChatGPT se esses trabalhos poderiam ser automatizados".
Para realizar um teste mais rigoroso, a sua equipa colocou vários agentes de IA a executar tarefas que, teoricamente, seriam da responsabilidade de profissionais humanos.
Para o efeito, criaram uma empresa fictícia, a "The Agent Company", onde diferentes modelos de IA tinham de completar trabalhos utilizando serviços como GitLab, Owncloud e RocketChat. O desempenho, no entanto, foi dececionante.
Resultados desanimadores e falhas estranhas
Nos ambientes de teste, os investigadores descobriram que, no melhor dos cenários, os modelos de IA falham em 70% das tarefas. O modelo com melhor desempenho foi o Claude Sonnet 4, que conseguiu resolver apenas 33,1% dos desafios propostos.
Outros modelos conhecidos ficaram para trás, como o Claude 3.7 Sonnet (30,9%), o Gemini 2.5 Pro (30,3%) e, a uma distância considerável, um desastroso GPT-4o, com apenas 8,6% de sucesso.
Durante os testes, foram observados diversos tipos de falhas. Houve agentes que se recusaram a enviar uma mensagem a colegas (uma parte fundamental da tarefa), outros que se mostraram incapazes de gerir janelas pop-up durante a navegação na web e até alguns que recorreram a "esquemas".
Num caso particularmente ilustrativo, um agente que deveria contactar uma pessoa específica no RocketChat (uma alternativa open-source ao Slack) não a encontrou. A sua solução foi renomear outro utilizador existente para o nome da pessoa que precisava de contactar.
Nem tudo está perdido: a evolução é real
Apesar dos problemas, a evolução no desempenho destes agentes de IA tem sido positiva. Neubig e a sua equipa testaram um agente de software que, inicialmente, resolvia cerca de 24% das tarefas. Seis meses depois, uma nova versão do mesmo agente já alcançava uma taxa de sucesso de 34%, um sinal de progresso rápido.
Além disso, os investigadores salientam que, mesmo imperfeitos, estes agentes podem ser úteis. Em contextos como a programação, uma sugestão de código parcial para resolver um problema específico pode servir de base para um programador humano desenvolver a solução final.
No entanto, é importante ter cuidado com a sua implementação. Delegar tarefas sensíveis, como desenvolvimento de sistemas críticos, a um agente que comete tantos erros pode ter consequências desastrosas.
Leia também:
#Existe #grande #problema #agentes #erram #das #vezes..