Step-Video-T2V foi pré-treinado com 30 bilhões de parâmetros
A IA chinesa StepFun lançou nesta segunda-feira (17) um novo modelo open-source de geração de vídeos com base em prompts de texto. O Step-Video-T2V foi pré-treinado com 30 bilhões de parâmetros e tem capacidade de gerar vídeos de até 204 quadros.
A solução está disponível para download de forma gratuita, com apenas um porém: para que o modelo rode corretamente, é necessário um computador com GPU NVIDIA com pelo menos 80 GB de memória. Esse requisito é cumprido pelas placas de vídeo NVIDIA A100 e H100, que custam sozinhas até R$ 260 mil.
O StepFun gera vídeos bastante realistas, unindo tecnologias de compressão, otimização baseada em preferências humanas e uma infraestrutura de hardware de alto desempenho.
Quem prefere utilizar o modelo na nuvem ou não têm como baixá-lo no computador por falta de memória precisa de um número de telefone chinês para fazer login no site. A ferramenta aceita prompts em inglês e em chinês.
O novo modelo possibilita uma melhoria na qualidade do conteúdo criado por meio da integração de um Video-VAE que garante uma taxa de compressão espacial de 16×16 e temporal de 8x. Além disso, é implementada uma Otimização de Preferência Direta (DPO) no final do processo, para refinar ainda mais o resultado.
“O desempenho do Step-Video-T2V é avaliado em um novo benchmark de geração de vídeo, o Step-Video-T2V-Eval , demonstrando sua qualidade de texto para vídeo SoTA em comparação com mecanismos comerciais e de código aberto”, destaca a empresa no anúncio.
De acordo com testes feitos pelo criador de conteúdo da área de IA Carlos Santana, o modelo gera cerca de 7 segundos de clipes em cerca de 12 minutos. “Ainda muito longo para ser utilizável pelo público em geral. Ainda assim, como você sabe, ser aberto torna mais fácil para a comunidade trabalhar em otimizações para reduzir recursos”, avalia.