De acordo com o teste, todas as ferramentas de IA avaliadas, com exceção do GPT-4, apresentaram comprometimento cognitivo leve
Estudo realizado com modelos de IA da OpenAI, Google e Anthropic revelaram que as inteligências artificiais possuem certo grau de comprometimento cognitivo.
Os piores resultados são de modelos mais antigos, o que traz a hipótese de uma perda cognitiva das IAs com o passar do tempo, assim como ocorre com o cérebro humano. Apenas o GPT-4 obteve um resultado satisfatório no teste.
A performance das LLMs (Large Language Moldels) foi avaliada em um estudo publicado no dia 20 de dezembro de 2024, que utilizou o teste chamado MoCA (Montreal Cognitive Assessment).
Utilizando o MoCA e testes adicionais, os pesquisadores descobriram que, com exceção do ChatGPT 4o, a maioria dos modelos apresentou sinais de comprometimento cognitivo leve.
Outro achado relevante foi a variação de desempenho entre diferentes versões de um mesmo modelo. Os pesquisadores observaram que modelos mais antigos, como o ChatGPT 3.5 e versões anteriores de Claude, apresentaram pior desempenho no MoCA em comparação com suas versões mais recentes.
Isso sugere que, assim como ocorre com o cérebro humano, os modelos de IA podem experimentar uma forma de “declínio cognitivo” relacionado ao tempo e ao avanço tecnológico.
O teste MoCA consiste em uma série de tarefas utilizadas por neurologistas para avaliar a habilidade de atenção, memória, linguagem, habilidades especiais e função mental executiva. Normalmente, esse exame é feito para avaliar ou detectar o início de um comprometimento cognitivo advindo de Alzheimer ou demência.
Ao realizar o Montreal Cognitive Assessment, pede-se que a pessoa desenhe um horário específico em um relógio, comece em 100 e subtraia sete rapidamente, tente lembrar o maior número possível de palavras de uma lista falada, entre outras tarefas. Para considerar que o indivíduo não tenha algum comprometimento cognitivo, a pontuação tem que ser de 26 em 30.
A pontuação mais alta no MoCA foi obtida pelo ChatGPT (versão 4), atingindo 26 pontos de 30. Porém, o Gemini 1.0 obteve somente 16 pontos.
De acordo com os cientistas responsáveis pela pesquisa, não é possível fazer uma comparação direta entre humanos e IAs, devido à forma como cada um funciona.
Entretanto, o estudo avalia que existe uma fraqueza significativa nas IAs, o que pode desacelerar a velocidade de implementação das inteligências artificiais na medicina clínica, principalmente em tarefas que exigem abstração visual e função executiva.