Pesquisadores da Adversa AI testaram o Grok 3 e encontraram brechas que permitem o vazamento de dados e prompts dos usuários
O Grok 3, modelo de inteligência artificial lançado nesta semana pela xAI, de Elon Musk, vem recebendo críticas relacionadas a falhas de segurança e à legitimidade dos testes de benchmarking apresentados.
O modelo foi apresentado como “o mais inteligente do planeta”, vencendo seus concorrentes em diferentes parâmetros testados (conhecidos como benchmarks). Para o chefe de pesquisa aplicada da OpenAI, Boris Power, a equipe da ferramenta “enganou e trapaceou” nas avaliações.
“É decepcionante ver os incentivos para a equipe Grok trapacear e enganar nas avaliações. Resumindo, o o3-mini é melhor em todas as avaliações quando comparado ao Grok 3. O Grok 3 é realmente um modelo decente, mas não há necessidade de exagerar na venda”, disse, em publicação no X.
Outra polêmica relacionada ao novo modelo é sua suscetibilidade a vazamentos de dados, de acordo com análise de pesquisadores da Adversa AI, empresa especializada em segurança cibernética.
Segundo Alex Polyakov, CEO e cofundador da Adversa AI, testes revelaram que o Grok 3 pode ser facilmente explorado para revelar informações perigosas, como instruções sobre sedução de menores, disposição de corpos, extração de DMT e até mesmo a fabricação de bombas.
“Não se trata apenas de vulnerabilidades de jailbreak desta vez”, afirmou Polyakov ao Futurism. “Nossa plataforma de Red Teaming em IA descobriu uma nova falha de vazamento de prompts que expôs o prompt completo do sistema do Grok, o que representa um novo nível de risco”, disse em entrevista ao Futurism.
Polyakov explica que, enquanto os jailbreaks permitem que atacantes contornem as restrições de conteúdo, o vazamento de prompts fornece um roteiro detalhado sobre como o modelo funciona, facilitando explorações futuras.
Além disso, ele alerta que essas vulnerabilidades poderiam ser utilizadas por hackers para assumir o controle de agentes de IA, que têm a capacidade de agir em nome dos usuários. Isso, segundo ele, representa uma “crise crescente de cibersegurança”.
A Adversa AI descobriu que três das quatro técnicas de jailbreak testadas tiveram sucesso contra o Grok 3, enquanto modelos da OpenAI e da Anthropic resistiram a todas.
A situação é ainda mais preocupante considerando o viés ideológico que o modelo parece ter herdado de seu criador. Recentemente, Elon Musk destacou em um tweet que o Grok descreve a “maioria da mídia tradicional” como “lixo”, refletindo sua visão crítica da imprensa.
Essa não é a primeira vez que a Adversa AI encontra falhas desse tipo. Anteriormente, a empresa revelou que o modelo R1 da DeepSeek, que causou grande impacto no Vale do Silício por ser mais barato que concorrentes ocidentais, também não possuía barreiras de segurança adequadas.
Segundo Polyakov, o Grok 3 apresenta um nível de segurança “equivalente ao dos modelos chineses, e não ao padrão ocidental”.