Dona do TikTok cria IA que permite criar animações a partir de uma imagem

ByteDance anunciou nesta semana o OmniHuman-1

Heloísa Vasconcelos
por | 05/02/2025 às 17:23

A ByteDance, empresa controladora do TikTok, anunciou nesta semana o OmniHuman-1, uma inteligência artificial capaz de criar vídeos animados com base em apenas uma foto, seja de pessoas reais ou de personagens de desenho.

Além da foto, é necessário oferecer sinais de movimento para a criação (somente áudio, somente vídeo ou uma combinação de áudio e vídeo).

Em vídeos demonstrativos, o CEO da Nvidia, Jensen Huang, aparece aparentemente cantando e o cientista Albert Einsten é mostrado falando uma de suas citações.

De acordo com o anúncio, a ferramenta ainda não está disponível para o uso livre de usuários, não sendo possível realizar download ou acessá-la em qualquer site.

Treinamento do OmniHuman

Conforme a ByteDance, o OminiHuman foi desenvolvido com um treinamento misto de condicionamento de movimento multimodal, possibilitando que o modelo se beneficie do aumento de escala de dados do condicionamento misto.

“Isso supera o problema que as abordagens de ponta a ponta anteriores enfrentavam devido à escassez de dados de alta qualidade”, destaca.

Conforme apuração do The Coder, os pesquisadores alimentaram o sistema com cerca de 19.000 horas de material em vídeo para possibilitar o aprendizado da máquina.

Os resultados mostram movimentos naturais da boca e gestos que correspondem bem ao conteúdo falado. O sistema lida melhor com proporções corporais e ambientes do que modelos anteriores, segundo a equipe de pesquisa.

“O OmniHuman supera significativamente os métodos existentes, gerando vídeos humanos extremamente realistas com base em entradas de sinal fraco, especialmente áudio. Ele suporta entradas de imagem de qualquer proporção, sejam retratos, imagens de meio corpo ou de corpo inteiro, fornecendo resultados mais realistas e de alta qualidade em vários cenários”, diz o anúncio.

A ferramenta não limita o tamanho dos vídeos gerados, o que depende mais da memória disponível. Na página do projeto, são exibidos vídeos entre 5 e 25 segundos.

Compartilhe:
Notícias mais populares