Início Geral Base de dados do Deepseek vaza e expõe até conversas com usuários

Base de dados do Deepseek vaza e expõe até conversas com usuários

Histórico de conversas do chatbot, chaves de API e metadados do DeepSeek foram expostos publicamente

por Vitor Valeri | 03/02/2025 às 10:24

Conversas do DeepSeek com usuários e muitas outras informações confidenciais foram expostas revelou a Wiz, uma startup americana de segurança em nuvem na quarta-feira (29). O banco de dados da inteligência artificial chinesa foi exposto no ClickHouse, um sistema de gerenciamento de banco de dados projetado para consultas analíticas rápidas em grandes bases.

Segundo a Wiz, as principais informações vazadas do banco de dados do DeepSeek foram o histórico de conversas do chatbot de IA da empresa, chaves de API em texto puro, metadados dos serviços de backend e diretórios internos.

A tabela “log_stream” continha mais de 1 milhão de registros de logs com informações críticas, disse a empresa de segurança em nuvem. Dentre os dados sensíveis, havia:

Logs a partir do dia 6 de janeiro de 2025
Referências a diversos endpoints internos da API da DeepSeek
Logs em texto puro, incluindo histórico de conversas, chaves de API, detalhes do backend e metadados operacionais
Indicação do serviço da DeepSeek que gerou os logs
Origem das solicitações de log, contendo histórico de conversas, chaves de API, estruturas de diretórios e metadados do chatbots

Capturas de tela com informações do ClickHouse mostrando a base de dados do DeepSeek. — Capturas de tela da base de dados do DeepSeek feitas pela empresa de segurança em nuvem Wiz (Imagem: Reprodução/Wiz)

Como os dados do ClickHouse são publicamente acessíveis, qualquer pessoa pode utilizados para fins maliciosos, caso haja esse desejo. O sistema ClickHouse foi desenvolvido pela Yandex e é utilizado para processamento de dados em tempo real, armazenamento de logs e análise de big data.

O que um invasor poderia fazer no Deepseek

De acordo com a Wiz, “um invasor não apenas poderia recuperar logs sensíveis e mensagens de chat em texto puro, mas também potencialmente exfiltrar senhas em texto puro e arquivos locais contendo informações proprietárias diretamente do servidor”.

O rápido surgimento de serviços de IA e as aplicações às quais eles são utilizados causou a necessidade de contar com um forte sistema de segurança. Os LLMs como ChatGPT, Gemini e DeepSeek utilizam uma grande quantidade de dados, sendo parte sensível tanto para o desenvolvedor quanto para os usuários finais, sendo importante ter ações preventivas para evitar a exposição acidental de bancos de dados.