Benchmark de inteligência artificial chamado "Humanity's Last Exam" tem recorde batido pelo deep research do ChatGPT
A pesquisa profunda (deep research) foi implementada e lançada no ChatGPT no domingo (02) possibilitando, por exemplo, uma maior precisão na realização do “último exame da humanidade” (Humanity’s Last Exam). De acordo com sua desenvolvedora, OpenAI, trata-se de um recurso que “realiza pesquisas em múltiplas etapas na internet para tarefas complexas”.
Segundo a OpenAI, uma avaliação recentemente lançada, o modelo que impulsiona pesquisas avançadas atingiu 26,6% de precisão, representando um grande avanço frente aos 13% do “OpenAI o3-mini (high)”. Isso foi possível devido ao “aprendizado por reforço de ponta a ponta, utilizando tarefas complexas de navegação e raciocínio em diversas áreas”, disse a desenvolvedora do ChatGPT em sua página sobre a pesquisa profunda.
Durante esse treinamento da inteligência artificial, a OpenAI explica que a IA aprendeu a planejar e executar trajetórias de múltiplas etapas para encontrar os dados necessários, ajustando-se e retrocedendo quando necessário com base em informações em tempo real.
Como os LLMs (Large Language Models ou Grandes Modelos de Linguagem) como, por exemplo, o ChatGPT, estão atingindo mais de 90% de precisão em benchmarks comuns, isso acaba limitando a capacidade de avaliar as capacidades dos modelos. O “Último Exame da Humanidade” é um benchmark multimodal que foi criado para cobrir uma grande quantidade de disciplinas.
Abaixo uma lista comparando o desempenho entre diferentes LLMs.
O Humanity’s Last Exam é um conjunto de 3 mil perguntas desafiadoras em mais de 100 áreas do conhecimento. O teste foi elaborado por quase mil especialistas em várias áreas, afiliados a mais de 500 instituições em 50 países – compostos, em sua maioria, por professores, pesquisadores e portadores de títulos de pós-graduação.