Deep Research do ChatGPT bate recorde no “Último Exame da Humanidade”

Benchmark de inteligência artificial chamado "Humanity's Last Exam" tem recorde batido pelo deep research do ChatGPT

Vitor Valeri
por | 05/02/2025 às 16:40

A pesquisa profunda (deep research) foi implementada e lançada no ChatGPT no domingo (02) possibilitando, por exemplo, uma maior precisão na realização do “último exame da humanidade” (Humanity’s Last Exam). De acordo com sua desenvolvedora, OpenAI, trata-se de um recurso que “realiza pesquisas em múltiplas etapas na internet para tarefas complexas”.

Segundo a OpenAI, uma avaliação recentemente lançada, o modelo que impulsiona pesquisas avançadas atingiu 26,6% de precisão, representando um grande avanço frente aos 13% do “OpenAI o3-mini (high)”. Isso foi possível devido ao “aprendizado por reforço de ponta a ponta, utilizando tarefas complexas de navegação e raciocínio em diversas áreas”, disse a desenvolvedora do ChatGPT em sua página sobre a pesquisa profunda.

Durante esse treinamento da inteligência artificial, a OpenAI explica que a IA aprendeu a planejar e executar trajetórias de múltiplas etapas para encontrar os dados necessários, ajustando-se e retrocedendo quando necessário com base em informações em tempo real.

Como os LLMs (Large Language Models ou Grandes Modelos de Linguagem) como, por exemplo, o ChatGPT, estão atingindo mais de 90% de precisão em benchmarks comuns, isso acaba limitando a capacidade de avaliar as capacidades dos modelos. O “Último Exame da Humanidade” é um benchmark multimodal que foi criado para cobrir uma grande quantidade de disciplinas.

Abaixo uma lista comparando o desempenho entre diferentes LLMs.

  • GPT-4o – 3,3% de precisão
  • Grok-2 – 3,8% de precisão
  • Claude 3.5 Sonnet – 4,3% de precisão
  • Claude 3.5 Sonnet – 6,2% de precisão
  • OpenAI o1 – 9,1% de precisão
  • DeepSeek-R1 – 9,4% de precisão
  • OpenAI o3-mini (medium) – 10,5% de precisão
  • OpenAI o3-mini (high) – 13% de precisão
  • OpenAI deep research – 26,6% de precisão

O que é o “Humanity’s Last Exam”?

O Humanity’s Last Exam é um conjunto de 3 mil perguntas desafiadoras em mais de 100 áreas do conhecimento. O teste foi elaborado por quase mil especialistas em várias áreas, afiliados a mais de 500 instituições em 50 países – compostos, em sua maioria, por professores, pesquisadores e portadores de títulos de pós-graduação.

Compartilhe:
Notícias mais populares