Terobosan Generasi Video Multi-Modal AI: Kesempatan Baru untuk Integrasi Web2 dan Web3

robot
Pembuatan abstrak sedang berlangsung

Terobosan Teknologi Generasi Video Multimodal AI dan Dampaknya

Salah satu perubahan paling signifikan di jalur AI baru-baru ini adalah terobosan dalam teknologi generasi video multimodal. Teknologi ini telah berkembang dari pembuatan video berbasis teks murni menjadi teknologi generasi jalur penuh yang mengintegrasikan teks, gambar, dan audio. Kemajuan ini telah membawa beberapa contoh terobosan teknologi yang menarik.

Sebuah perusahaan teknologi terkenal telah membuka sumber sebuah kerangka kerja yang dapat mengubah video monokular menjadi konten 4D dengan sudut pandang bebas, dengan tingkat penerimaan pengguna mencapai 70,7%. Ini berarti AI sekarang dapat secara otomatis menghasilkan efek tampilan dari sudut mana pun, yang dulunya memerlukan tim pemodelan 3D profesional untuk menyelesaikannya.

Sebuah platform yang diluncurkan oleh perusahaan lain mengklaim dapat menghasilkan video berkualitas "film" selama 10 detik dari sebuah gambar. Meskipun klaim ini mungkin berlebihan, tetap menarik untuk menantikan versi profesional yang akan segera dirilis.

Teknologi yang dikembangkan oleh departemen penelitian AI dari raksasa teknologi internasional dapat secara bersamaan menghasilkan video 4K dan suara lingkungan. Sorotan kunci dari teknologi ini adalah pencocokan pada tingkat semantik yang sebenarnya, mengatasi tantangan sinkronisasi audio dan video dalam skenario yang kompleks, seperti kecocokan yang tepat antara gerakan berjalan dalam gambar dan suara langkah.

Sebuah model AI dari perusahaan media sosial, memiliki 8 miliar parameter, dapat menghasilkan video 1080p dalam 2,3 detik, dengan biaya 3,67 yuan/5 detik. Meskipun kualitas generasi dalam skenario yang kompleks masih memiliki ruang untuk perbaikan, namun pengendalian biaya sudah cukup baik.

Terobosan teknologi ini memiliki nilai dan makna yang signifikan dalam hal kualitas video, biaya produksi, dan skenario aplikasi. Dari sudut pandang teknis, kompleksitas pembuatan video multimodal adalah eksponensial. Ini tidak hanya harus menangani titik piksel dari gambar tunggal, tetapi juga memastikan kesinambungan temporal video, sinkronisasi audio, serta konsistensi ruang 3D. Sekarang, melalui dekomposisi modular dan kolaborasi model besar, tugas kompleks ini menjadi mungkin.

Dalam hal biaya, di baliknya adalah optimasi arsitektur inferensi itu sendiri, termasuk strategi generasi berlapis, mekanisme penggunaan kembali cache, dan alokasi sumber daya yang dinamis. Optimasi ini telah mengurangi biaya pembuatan video secara signifikan.

Kemajuan teknologi ini telah memberikan dampak besar pada bidang aplikasi. Produksi video tradisional adalah industri yang membutuhkan modal besar, memerlukan banyak peralatan, lokasi, aktor, dan pascaproduksi. Namun, teknologi AI menyederhanakan proses ini menjadi memasukkan kata kunci dan waktu tunggu beberapa menit, sambil memungkinkan sudut pandang dan efek khusus yang sulit dicapai dengan pengambilan gambar tradisional. Ini dapat memicu perombakan seluruh ekonomi kreator.

Perubahan pada permintaan teknologi AI Web2 di sisi permintaan juga berdampak pada AI Web3. Pertama, struktur permintaan daya komputasi telah berubah, di mana pembuatan video multimodal memerlukan kombinasi daya komputasi yang beragam, ini mungkin akan meningkatkan permintaan untuk daya komputasi terdistribusi yang tidak terpakai. Kedua, permintaan untuk pelabelan data juga akan meningkat, menghasilkan video tingkat profesional memerlukan deskripsi adegan yang akurat, gambar referensi, gaya audio, dan data profesional lainnya. Terakhir, AI yang sebelumnya terpusat dalam pengelolaan sumber daya besar secara bertahap beralih ke kolaborasi modular, yang pada dasarnya merupakan permintaan baru untuk platform desentralisasi.

Di masa depan, kekuatan komputasi, data, model, dan mekanisme insentif mungkin akan membentuk roda penguat diri yang mendorong integrasi besar antara skenario Web3 AI dan Web2 AI. Tren ini akan membawa peluang dan tantangan baru bagi seluruh ekosistem AI.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
NotSatoshivip
· 7jam yang lalu
Ah ini Disney akan dihabisi.
Lihat AsliBalas0
BoredApeResistancevip
· 7jam yang lalu
Masih berbohong? Dengan tingkat pengakuan 70, berani pamer.
Lihat AsliBalas0
NewDAOdreamervip
· 8jam yang lalu
Setiap gambar bisa menjadi video, sangat menyenangkan!
Lihat AsliBalas0
GasBanditvip
· 8jam yang lalu
Sekali lagi, sekelompok pemangkas terus memainkan orang-orang untuk suckers.
Lihat AsliBalas0
HashBanditvip
· 8jam yang lalu
bruh... bahkan tidak bisa menambang eth lagi tapi sekarang AI juga mencuri pekerjaan rendering? smh sama seperti saat asics menghancurkan farm gpu saya pada '18
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)