Прорыв в технологии генерации многомодальных видео с использованием ИИ и его влияние
Одним из наиболее заметных изменений в области AI в последнее время стало продвижение технологии многомодальной генерации видео. Эта технология эволюционировала от первоначальной генерации видео из чистого текста к полностраничной генерации, интегрирующей текст, изображения и аудио. Этот прогресс привел к нескольким впечатляющим примерам технологических прорывов.
Известная технологическая компания открыла исходный код фреймворка, который может преобразовывать моно-видео в 4D-контент с произвольным углом обзора, при этом уровень одобрения пользователей составляет 70,7%. Это означает, что ИИ теперь способен автоматически генерировать просмотр с любого угла, что ранее требовало профессиональной команды по 3D-моделированию.
Еще одна компания представила платформу, которая утверждает, что может создавать 10-секундные видео "киночного" качества из одного изображения. Хотя это утверждение может быть преувеличением, все же стоит ожидать ее предстоящую профессиональную версию.
Технология, разработанная исследовательским отделом ИИ одного международного технологического гиганта, может синхронно генерировать 4K-видео и окружающий звук. Ключевым моментом этой технологии является достижение истинно семантического соответствия, преодолевающее сложности синхронизации аудио и видео в сложных сценах, например, точное соответствие между движением ног в кадре и звуком шагов.
Искусственная модель AI социальной медиа компании с 8 миллиардами параметров может генерировать 1080p видео за 2,3 секунды, стоимость составляет 3,67 юаня/5 секунд. Хотя качество генерации в сложных сценах еще можно улучшить, контроль затрат уже довольно хорош.
Эти технологические прорывы имеют значительную ценность и значение с точки зрения качества видео, стоимости генерации и областей применения. С технической точки зрения, сложность многомодальной генерации видео является экспоненциальной. Она должна обрабатывать не только пиксели одиночного кадра, но и обеспечивать временную согласованность видео, синхронизацию аудио и согласованность в 3D-пространстве. Сейчас, благодаря модульной декомпозиции и сотрудничеству больших моделей, эта сложная задача стала осуществимой.
С точки зрения затрат, за этим стоит оптимизация самой архитектуры вывода, включая стратегию генерирования на разных уровнях, механизмы повторного использования кэша и динамическое распределение ресурсов. Эти оптимизации значительно снизили затраты на генерацию видео.
Эти технологические достижения оказали огромное влияние на область применения. Традиционное видеопроизводство является капиталоемкой отраслью, требующей большого количества оборудования, площадей, актеров и постпродакшна. Однако технологии ИИ упрощают этот процесс до ввода ключевых слов и нескольких минут ожидания, одновременно позволяя достигать углов и эффектов, которые трудно реализовать традиционной съемкой. Это может привести к переосмыслению всей экономики создателей.
Изменения в спросе на технологии Web2 AI также оказали влияние на Web3 AI. Во-первых, структура спроса на вычислительные ресурсы изменилась, генерация мультимодальных видео требует разнообразных комбинаций вычислительных мощностей, что может увеличить спрос на распределенные неиспользуемые вычислительные ресурсы. Во-вторых, спрос на аннотацию данных также возрастает, генерация профессионального видео требует точных описаний сцен, эталонных изображений, стилистики аудио и других профессиональных данных. Наконец, AI постепенно переходит от централизованного распределения ресурсов к модульному сотрудничеству, что само по себе является новым требованием к децентрализованным платформам.
В будущем вычислительная мощность, данные, модели и механизмы стимулирования могут сформировать самоподдерживающийся маховик, который будет способствовать интеграции Web3 AI и Web2 AI. Эта тенденция принесет новые возможности и вызовы для всей экосистемы AI.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
5
Поделиться
комментарий
0/400
NotSatoshi
· 08-04 13:41
А это Дисней скоро будет уничтожен.
Посмотреть ОригиналОтветить0
BoredApeResistance
· 08-04 13:40
Все еще хвастаешься? 70% уровень одобрения, и ты смеешь это показывать.
Посмотреть ОригиналОтветить0
NewDAOdreamer
· 08-04 13:26
Каждое изображение может стать видео, это весело!
Посмотреть ОригиналОтветить0
GasBandit
· 08-04 13:26
Снова волна серповидных неудачников, которых постоянно разыгрывают как лохов.
Посмотреть ОригиналОтветить0
HashBandit
· 08-04 13:23
брат... даже эфириум не могу добывать, а теперь ИИ еще и работу рендеринга отнимает? вздыхаю, как в '18, когда асики убили мою ферму гпу
Прорыв в генерации многомодальных видео с помощью ИИ: новые возможности для интеграции Web2 и Web3
Прорыв в технологии генерации многомодальных видео с использованием ИИ и его влияние
Одним из наиболее заметных изменений в области AI в последнее время стало продвижение технологии многомодальной генерации видео. Эта технология эволюционировала от первоначальной генерации видео из чистого текста к полностраничной генерации, интегрирующей текст, изображения и аудио. Этот прогресс привел к нескольким впечатляющим примерам технологических прорывов.
Известная технологическая компания открыла исходный код фреймворка, который может преобразовывать моно-видео в 4D-контент с произвольным углом обзора, при этом уровень одобрения пользователей составляет 70,7%. Это означает, что ИИ теперь способен автоматически генерировать просмотр с любого угла, что ранее требовало профессиональной команды по 3D-моделированию.
Еще одна компания представила платформу, которая утверждает, что может создавать 10-секундные видео "киночного" качества из одного изображения. Хотя это утверждение может быть преувеличением, все же стоит ожидать ее предстоящую профессиональную версию.
Технология, разработанная исследовательским отделом ИИ одного международного технологического гиганта, может синхронно генерировать 4K-видео и окружающий звук. Ключевым моментом этой технологии является достижение истинно семантического соответствия, преодолевающее сложности синхронизации аудио и видео в сложных сценах, например, точное соответствие между движением ног в кадре и звуком шагов.
Искусственная модель AI социальной медиа компании с 8 миллиардами параметров может генерировать 1080p видео за 2,3 секунды, стоимость составляет 3,67 юаня/5 секунд. Хотя качество генерации в сложных сценах еще можно улучшить, контроль затрат уже довольно хорош.
Эти технологические прорывы имеют значительную ценность и значение с точки зрения качества видео, стоимости генерации и областей применения. С технической точки зрения, сложность многомодальной генерации видео является экспоненциальной. Она должна обрабатывать не только пиксели одиночного кадра, но и обеспечивать временную согласованность видео, синхронизацию аудио и согласованность в 3D-пространстве. Сейчас, благодаря модульной декомпозиции и сотрудничеству больших моделей, эта сложная задача стала осуществимой.
С точки зрения затрат, за этим стоит оптимизация самой архитектуры вывода, включая стратегию генерирования на разных уровнях, механизмы повторного использования кэша и динамическое распределение ресурсов. Эти оптимизации значительно снизили затраты на генерацию видео.
Эти технологические достижения оказали огромное влияние на область применения. Традиционное видеопроизводство является капиталоемкой отраслью, требующей большого количества оборудования, площадей, актеров и постпродакшна. Однако технологии ИИ упрощают этот процесс до ввода ключевых слов и нескольких минут ожидания, одновременно позволяя достигать углов и эффектов, которые трудно реализовать традиционной съемкой. Это может привести к переосмыслению всей экономики создателей.
Изменения в спросе на технологии Web2 AI также оказали влияние на Web3 AI. Во-первых, структура спроса на вычислительные ресурсы изменилась, генерация мультимодальных видео требует разнообразных комбинаций вычислительных мощностей, что может увеличить спрос на распределенные неиспользуемые вычислительные ресурсы. Во-вторых, спрос на аннотацию данных также возрастает, генерация профессионального видео требует точных описаний сцен, эталонных изображений, стилистики аудио и других профессиональных данных. Наконец, AI постепенно переходит от централизованного распределения ресурсов к модульному сотрудничеству, что само по себе является новым требованием к децентрализованным платформам.
В будущем вычислительная мощность, данные, модели и механизмы стимулирования могут сформировать самоподдерживающийся маховик, который будет способствовать интеграции Web3 AI и Web2 AI. Эта тенденция принесет новые возможности и вызовы для всей экосистемы AI.