Прорив у генерації відео з використанням AI з багатьма модальностями: нові можливості для злиття Web2 та Web3

robot
Генерація анотацій у процесі

Прорив технології генерації багатомодальних відео з використанням штучного інтелекту та його вплив

Останнім часом однією з найзначніших змін у сфері штучного інтелекту стало прорив у технології багатомодального генерування відео. Ця технологія еволюціонувала від початкового генерування відео на основі чистого тексту до інтеграції тексту, зображень і аудіо в повноцінну технологію генерації. Цей прогрес призвів до кількох вражаючих випадків технічних проривів.

Відома технологічна компанія відкрила фреймворк, який може перетворити монопольне відео на 4D контент з вільним оглядом, а рівень схвалення користувачів становить 70,7%. Це означає, що штучний інтелект тепер може автоматично генерувати ефекти перегляду з будь-якого кута, що раніше вимагало професійної команди 3D-моделістів.

Інша компанія запустила платформу, яка стверджує, що може створити 10-секундне "кіноякісне" відео з одного зображення. Хоча це твердження може бути перебільшеним, все ж варто очікувати на її професійну версію, яка незабаром вийде.

Технологія, розроблена дослідницьким відділом штучного інтелекту одного міжнародного технологічного гіганта, може синхронно генерувати 4K відео та навколишній звук. Ключовою особливістю цієї технології є досягнення справжнього семантичного відповідності, що долає виклики синхронізації звуку та зображення в складних сценах, таких як точна відповідність між рухом ходьби на екрані та звуком кроків.

Штучна модель інтелекту соціальної медіа компанії, яка має 8 мільярдів параметрів, може генерувати 1080p відео за 2,3 секунди, вартість становить 3,67 юаня/5 секунд. Хоча якість генерування в складних сценах ще потребує покращення, контроль витрат вже на досить хорошому рівні.

Ці технологічні прориви мають значну цінність і значення в таких аспектах, як якість відео, витрати на генерацію та сценарії використання. З технологічної точки зору, складність мультимодальної генерації відео є експоненціальною. Вона повинна обробляти не лише пікселі окремих кадрів, але й забезпечувати послідовність часового ряду відео, синхронізацію аудіо та просторову узгодженість у 3D. Зараз, завдяки модульній декомпозиції та співпраці великих моделей, це складне завдання стало можливим.

У плані витрат, за цим стоїть оптимізація самої архітектури висновків, включаючи ієрархічну стратегію генерації, механізм повторного використання кешу та динамічне розподілення ресурсів. Ці оптимізації значно знизили витрати на генерацію відео.

Ці технологічні досягнення мали величезний вплив на сферу застосування. Традиційне відеовиробництво є капіталомісткою галуззю, яка вимагає великої кількості обладнання, приміщень, акторів та пост-продакшну. Водночас технології ШІ спростили цей процес до введення підказок і кількох хвилин очікування, а також дозволили досягти кутів зйомки та спецефектів, які важко реалізувати традиційним способом. Це може призвести до переосмислення всієї економіки творців.

Зміни у попиті на технології Web2 AI також вплинули на Web3 AI. По-перше, структура попиту на обчислювальні потужності змінилася, багатофункціональне генерування відео потребує різноманітних комбінацій обчислювальних потужностей, що може збільшити попит на розподілені незайняті обчислювальні потужності. По-друге, попит на маркування даних також збільшиться, генерування професійного відео вимагає точних описів сцен, референтних зображень, аудіо стилю та інших професійних даних. Нарешті, AI поступово переходить від централізованого великомасштабного розподілу ресурсів до модульної співпраці, що само по собі є новим попитом на децентралізовані платформи.

У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть утворити самоукріплювальне колесо, яке сприятиме великій інтеграції Web3 AI та Web2 AI. Ця тенденція принесе нові можливості та виклики для всієї екосистеми AI.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Поділіться
Прокоментувати
0/400
NotSatoshivip
· 08-04 13:41
А це Дісней вже збираються прибрати.
Переглянути оригіналвідповісти на0
BoredApeResistancevip
· 08-04 13:40
Все ще хизуєшся? З 70% рівнем визнання це навіть соромно показувати.
Переглянути оригіналвідповісти на0
NewDAOdreamervip
· 08-04 13:26
Кожна картинка може стати відео, грайливо!
Переглянути оригіналвідповісти на0
GasBanditvip
· 08-04 13:26
Знову хвиля коси невдахів безперервно обдурює людей, як лохів
Переглянути оригіналвідповісти на0
HashBanditvip
· 08-04 13:23
брат... навіть не можу видобувати eth більше, але тепер ШІ краде роботу рендеринга теж? смх так само, як коли asics знищили мою ферму gpu в '18
Переглянути оригіналвідповісти на0
  • Закріпити