Modelos de lA ficam mais burros ao longo do tempo, diz estudo

De acordo com o teste, todas as ferramentas de IA avaliadas, com exceção do GPT-4, apresentaram comprometimento cognitivo leve

Vitor Valeri
por | 19/02/2025 às 15:55

Estudo realizado com modelos de IA da OpenAI, Google e Anthropic revelaram que as inteligências artificiais possuem certo grau de comprometimento cognitivo.

Os piores resultados são de modelos mais antigos, o que traz a hipótese de uma perda cognitiva das IAs com o passar do tempo, assim como ocorre com o cérebro humano. Apenas o GPT-4 obteve um resultado satisfatório no teste.

A performance das LLMs (Large Language Moldels) foi avaliada em um estudo publicado no dia 20 de dezembro de 2024, que utilizou o teste chamado MoCA (Montreal Cognitive Assessment).

Comprometimento cognitivo na IA

Utilizando o MoCA e testes adicionais, os pesquisadores descobriram que, com exceção do ChatGPT 4o, a maioria dos modelos apresentou sinais de comprometimento cognitivo leve.

Outro achado relevante foi a variação de desempenho entre diferentes versões de um mesmo modelo. Os pesquisadores observaram que modelos mais antigos, como o ChatGPT 3.5 e versões anteriores de Claude, apresentaram pior desempenho no MoCA em comparação com suas versões mais recentes.

Isso sugere que, assim como ocorre com o cérebro humano, os modelos de IA podem experimentar uma forma de “declínio cognitivo” relacionado ao tempo e ao avanço tecnológico.

Teste MoCA

O teste MoCA consiste em uma série de tarefas utilizadas por neurologistas para avaliar a habilidade de atenção, memória, linguagem, habilidades especiais e função mental executiva. Normalmente, esse exame é feito para avaliar ou detectar o início de um comprometimento cognitivo advindo de Alzheimer ou demência.

Ao realizar o Montreal Cognitive Assessment, pede-se que a pessoa desenhe um horário específico em um relógio, comece em 100 e subtraia sete rapidamente, tente lembrar o maior número possível de palavras de uma lista falada, entre outras tarefas. Para considerar que o indivíduo não tenha algum comprometimento cognitivo, a pontuação tem que ser de 26 em 30.

A pontuação mais alta no MoCA foi obtida pelo ChatGPT (versão 4), atingindo 26 pontos de 30. Porém, o Gemini 1.0 obteve somente 16 pontos.

De acordo com os cientistas responsáveis pela pesquisa, não é possível fazer uma comparação direta entre humanos e IAs, devido à forma como cada um funciona.

Entretanto, o estudo avalia que existe uma fraqueza significativa nas IAs, o que pode desacelerar a velocidade de implementação das inteligências artificiais na medicina clínica, principalmente em tarefas que exigem abstração visual e função executiva.

Compartilhe:
Notícias mais populares