Une percée dans la génération de vidéos multimodales par IA : de nouvelles opportunités de fusion entre Web2 et Web3

robot
Création du résumé en cours

Percées de la technologie de génération vidéo multimodale par IA et ses impacts

L'un des changements les plus significatifs récemment dans le domaine de l'IA est la percée de la technologie de génération de vidéos multimodales. Cette technologie est passée de la génération de vidéos à partir de texte pur à une technologie de génération en chaîne intégrant texte, images et audio. Ce progrès a entraîné plusieurs cas de percées technologiques remarquables.

Une entreprise technologique renommée a open-sourcé un cadre capable de convertir des vidéos monoculaires en contenu 4D à vue libre, avec un taux d'acceptation des utilisateurs atteignant 70,7 %. Cela signifie que l'IA peut désormais générer automatiquement des effets de vision sous n'importe quel angle, ce qui nécessitait auparavant une équipe de modélisation 3D professionnelle.

Une autre entreprise a lancé une plateforme qui prétend pouvoir générer une vidéo de "qualité cinématographique" de 10 secondes à partir d'une image. Bien que cette affirmation puisse être exagérée, il est néanmoins intéressant d'attendre la sortie de sa version professionnelle.

La technologie développée par le département de recherche en IA d'un géant technologique international peut générer simultanément des vidéos 4K et des sons d'environnement. Le point clé de cette technologie réside dans la réalisation d'une correspondance véritable au niveau sémantique, surmontant le défi de la synchronisation audio-vidéo dans des scènes complexes, par exemple, la correspondance précise entre les mouvements de marche à l'écran et les bruits de pas.

Un modèle d'IA d'une entreprise de médias sociaux, avec 8 milliards de paramètres, capable de générer des vidéos 1080p en 2,3 secondes, au coût de 3,67 ¥/5 secondes. Bien que la qualité de génération dans des scénarios complexes ait encore de la marge pour s'améliorer, le contrôle des coûts est déjà assez bon.

Ces percées technologiques ont une grande valeur et signification en termes de qualité vidéo, de coûts de génération et de scénarios d'application. D'un point de vue technique, la complexité de la génération vidéo multimodale est exponentielle. Elle doit non seulement traiter les pixels d'une image unique, mais aussi garantir la cohérence temporelle de la vidéo, la synchronisation audio et la cohérence spatiale en 3D. Maintenant, grâce à la décomposition modulaire et à la collaboration des grands modèles, cette tâche complexe devient réalisable.

En ce qui concerne les coûts, cela repose sur l'optimisation de l'architecture de raisonnement elle-même, y compris les stratégies de génération hiérarchique, les mécanismes de réutilisation des caches et l'allocation dynamique des ressources. Ces optimisations ont considérablement réduit le coût de génération vidéo.

Ces avancées technologiques ont eu un impact énorme sur le secteur des applications. La production vidéo traditionnelle est une industrie à fort investissement, nécessitant un grand nombre d'équipements, de lieux, d'acteurs et de post-production. La technologie de l'IA simplifie ce processus en se réduisant à l'entrée de mots-clés et à quelques minutes d'attente, tout en permettant d'atteindre des angles et des effets spéciaux difficiles à réaliser avec la prise de vue traditionnelle. Cela pourrait entraîner un bouleversement complet de l'économie des créateurs.

Les changements dans la demande des technologies Web2 AI ont également eu un impact sur l'IA Web3. Tout d'abord, la structure de la demande en puissance de calcul a changé, la génération de vidéos multimodales nécessitant une combinaison diversifiée de puissance de calcul, ce qui pourrait augmenter la demande pour la puissance de calcul distribuée inutilisée. Deuxièmement, la demande en annotation de données va également s'accroître, la génération de vidéos de niveau professionnel nécessitant des descriptions de scènes précises, des images de référence, des styles audio et d'autres données spécialisées. Enfin, l'IA passe d'une allocation de ressources centralisée à grande échelle à une collaboration modulable, ce qui constitue en soi une nouvelle demande pour des plateformes décentralisées.

À l'avenir, la puissance de calcul, les données, les modèles et les mécanismes d'incitation pourraient former un volant d'auto-renforcement, propulsant la grande intégration des scénarios Web3 AI et Web2 AI. Cette tendance apportera de nouvelles opportunités et défis à l'ensemble de l'écosystème AI.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Partager
Commentaire
0/400
NotSatoshivip
· Il y a 14h
Ah, Disney va être éliminé.
Voir l'originalRépondre0
BoredApeResistancevip
· Il y a 14h
Tu continues à fanfaronner ? Tu as l'audace de te vanter d'un taux de reconnaissance de 70 ?
Voir l'originalRépondre0
NewDAOdreamervip
· Il y a 14h
Chaque image peut devenir une vidéo, c'est amusant.
Voir l'originalRépondre0
GasBanditvip
· Il y a 14h
Encore une vague de faux-semblants prenant les gens pour des idiots.
Voir l'originalRépondre0
HashBanditvip
· Il y a 14h
bruh... on ne peut même plus miner d'eth maintenant mais l'IA vole aussi des emplois de rendu ? smh tout comme quand les asics ont tué ma ferme gpu en '18
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)