Quebra na geração de vídeos multimodais por IA: novas oportunidades na fusão entre Web2 e Web3

robot
Geração do resumo em andamento

Quebra da tecnologia de geração de vídeo multimodal de IA e seu impacto

Uma das mudanças mais significativas na recente corrida da IA é a quebra de tecnologia de geração de vídeo multimodal. Esta tecnologia evoluiu de uma geração de vídeo puramente textual para uma tecnologia de geração de cadeia completa que integra texto, imagem e áudio. Este avanço trouxe vários casos de destaque de avanços tecnológicos.

Uma conhecida empresa de tecnologia lançou um framework de código aberto que pode converter vídeos monoculares em conteúdos 4D de ângulo livre, com uma taxa de aceitação do usuário de 70,7%. Isso significa que a IA agora é capaz de gerar automaticamente efeitos de visualização a partir de qualquer ângulo, algo que no passado exigia uma equipe profissional de modelagem 3D para ser realizado.

Outra empresa lançou uma plataforma que afirma ser capaz de gerar um vídeo de "qualidade cinematográfica" de 10 segundos a partir de uma imagem. Embora essa afirmação possa conter exagero, ainda é digno de expectativa o seu próximo lançamento da versão profissional.

A tecnologia desenvolvida pelo departamento de pesquisa em IA de um gigante tecnológico internacional pode gerar vídeos em 4K e som ambiente de forma sincronizada. O destaque dessa tecnologia é a implementação de correspondência em um nível semântico real, superando os desafios de sincronização de áudio e vídeo em cenários complexos, como a correspondência precisa entre a ação de caminhar na imagem e o som dos passos.

Um modelo de IA de uma empresa de redes sociais, com 8 bilhões de parâmetros, que consegue gerar vídeo em 1080p em 2,3 segundos, a um custo de 3,67 euros/5 segundos. Embora a qualidade de geração em cenários complexos ainda tenha espaço para melhorias, o controle de custos já está bastante bom.

Esses avanços tecnológicos têm um valor e significado significativos em termos de qualidade de vídeo, custo de geração e cenários de aplicação. Do ponto de vista técnico, a complexidade da geração de vídeo multimodal é exponencial. Não só é necessário lidar com os pontos de pixel de uma única imagem, mas também garantir a coerência temporal do vídeo, a sincronização de áudio e a consistência do espaço 3D. Agora, através da decomposição modular e da colaboração de grandes modelos, essa tarefa complexa tornou-se viável.

Em termos de custo, está por trás a otimização da própria arquitetura de raciocínio, incluindo estratégias de geração em camadas, mecanismos de reutilização de cache e alocação dinâmica de recursos. Essas otimizações reduziram significativamente o custo da geração de vídeo.

Esses avanços tecnológicos tiveram um grande impacto nas áreas de aplicação. A produção de vídeo tradicional é uma indústria de alto investimento, que requer uma grande quantidade de equipamentos, locais, atores e pós-produção. A tecnologia de IA simplificou esse processo para a inserção de palavras-chave e alguns minutos de tempo de espera, ao mesmo tempo que possibilita perspectivas e efeitos especiais difíceis de alcançar com filmagens tradicionais. Isso pode desencadear uma reestruturação de toda a economia dos criadores.

As mudanças na demanda por tecnologia Web2 AI também impactaram a Web3 AI. Primeiro, a estrutura da demanda por poder computacional mudou, a geração de vídeos multimodais requer uma combinação diversificada de poder computacional, o que pode aumentar a demanda por poder computacional ocioso distribuído. Em segundo lugar, a demanda por anotação de dados também aumentará, a geração de vídeos de nível profissional necessita de descrições de cena precisas, imagens de referência, estilos de áudio e outros dados especializados. Por último, a AI está passando de uma alocação centralizada de recursos em grande escala para uma colaboração modular, o que por si só representa uma nova demanda por plataformas descentralizadas.

No futuro, a computação, os dados, os modelos e os mecanismos de incentivo poderão formar um volante de auto-reforço, impulsionando a grande fusão entre os cenários de Web3 AI e Web2 AI. Esta tendência trará novas oportunidades e desafios para todo o ecossistema de IA.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
NotSatoshivip
· 23h atrás
Ah, a Disney vai ser eliminada.
Ver originalResponder0
BoredApeResistancevip
· 23h atrás
Ainda está a fazer alarde? Ter uma taxa de aceitação de 70% é mesmo uma ousadia.
Ver originalResponder0
NewDAOdreamervip
· 08-04 13:26
Cada imagem pode se transformar em vídeo, diversão garantida!
Ver originalResponder0
GasBanditvip
· 08-04 13:26
Outra onda de fazer as pessoas de parvas com a foice.
Ver originalResponder0
HashBanditvip
· 08-04 13:23
bruh... já não consigo minerar eth, mas agora a IA também está a roubar empregos de renderização? smh assim como quando os asics destruíram a minha fazenda de gpu em '18
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)