Início Geral Deep Research do ChatGPT bate recorde no “Último Exame da Humanidade”

Deep Research do ChatGPT bate recorde no “Último Exame da Humanidade”

Benchmark de inteligência artificial chamado "Humanity's Last Exam" tem recorde batido pelo deep research do ChatGPT

por Vitor Valeri | 05/02/2025 às 16:40

robô branco com dois auxiliares — Imagem: CATAI\Midjourney

A pesquisa profunda (deep research) foi implementada e lançada no ChatGPT no domingo (02) possibilitando, por exemplo, uma maior precisão na realização do “último exame da humanidade” (Humanity’s Last Exam). De acordo com sua desenvolvedora, OpenAI, trata-se de um recurso que “realiza pesquisas em múltiplas etapas na internet para tarefas complexas”.

Segundo a OpenAI, uma avaliação recentemente lançada, o modelo que impulsiona pesquisas avançadas atingiu 26,6% de precisão, representando um grande avanço frente aos 13% do “OpenAI o3-mini (high)”. Isso foi possível devido ao “aprendizado por reforço de ponta a ponta, utilizando tarefas complexas de navegação e raciocínio em diversas áreas”, disse a desenvolvedora do ChatGPT em sua página sobre a pesquisa profunda.

Durante esse treinamento da inteligência artificial, a OpenAI explica que a IA aprendeu a planejar e executar trajetórias de múltiplas etapas para encontrar os dados necessários, ajustando-se e retrocedendo quando necessário com base em informações em tempo real.

Como os LLMs (Large Language Models ou Grandes Modelos de Linguagem) como, por exemplo, o ChatGPT, estão atingindo mais de 90% de precisão em benchmarks comuns, isso acaba limitando a capacidade de avaliar as capacidades dos modelos. O “Último Exame da Humanidade” é um benchmark multimodal que foi criado para cobrir uma grande quantidade de disciplinas.

Abaixo uma lista comparando o desempenho entre diferentes LLMs.

GPT-4o – 3,3% de precisão
Grok-2 – 3,8% de precisão
Claude 3.5 Sonnet – 4,3% de precisão
Claude 3.5 Sonnet – 6,2% de precisão
OpenAI o1 – 9,1% de precisão
DeepSeek-R1 – 9,4% de precisão
OpenAI o3-mini (medium) – 10,5% de precisão
OpenAI o3-mini (high) – 13% de precisão
OpenAI deep research – 26,6% de precisão

O que é o “Humanity’s Last Exam”?

O Humanity’s Last Exam é um conjunto de 3 mil perguntas desafiadoras em mais de 100 áreas do conhecimento. O teste foi elaborado por quase mil especialistas em várias áreas, afiliados a mais de 500 instituições em 50 países – compostos, em sua maioria, por professores, pesquisadores e portadores de títulos de pós-graduação.