#突破 تكنولوجيا إنشاء الفيديو متعدد الوسائط بالذكاء الاصطناعي وتأثيرها
أحد أبرز التغيرات في مجال الذكاء الاصطناعي مؤخرًا هو تقدم تقنية توليد الفيديو متعدد الوسائط. لقد تطورت هذه التقنية من توليد الفيديو من نصوص فقط إلى تقنية توليد شاملة تدمج النصوص والصور والصوت. وقد جلب هذا التقدم العديد من حالات الاختراق التكنولوجي المثيرة للاهتمام.
شركة تكنولوجيا معروفة أصدرت إطار عمل مفتوح المصدر يمكنه تحويل الفيديو أحادي العدسة إلى محتوى 4D بزاوية رؤية حرة، مع نسبة رضا المستخدمين تصل إلى 70.7%. هذا يعني أن الذكاء الاصطناعي يمكنه الآن توليد تأثيرات المشاهدة من أي زاوية تلقائيًا، وهو ما كان يتطلب في السابق فريقًا محترفًا من نمذجة ثلاثية الأبعاد.
أطلقت شركة أخرى منصة تدعي أنها قادرة على تحويل صورة واحدة إلى فيديو "بجودة سينمائية" مدته 10 ثوانٍ. على الرغم من أن هذا الادعاء قد يحتوي على مبالغات، إلا أنه لا يزال من المتوقع أن يتم إصدار نسخة احترافية قريبًا.
تكنولوجيا طورتها إدارة الأبحاث في الذكاء الاصطناعي لشركة تكنولوجيا دولية كبرى يمكنها توليد فيديو بدقة 4K وصوت بيئي في وقت واحد. النقطة الرئيسية في هذه التكنولوجيا هي تحقيق مطابقة حقيقية على المستوى الدلالي، مما يتغلب على تحديات مزامنة الصوت والصورة في المشاهد المعقدة، مثل التطابق الدقيق بين حركة المشي في الصورة وصوت الخطوات.
نموذج الذكاء الاصطناعي لشركة وسائط اجتماعية، يحتوي على 8 مليارات معلمة، يمكنه إنتاج فيديو بدقة 1080p في 2.3 ثانية، بتكلفة 3.67 يوان لكل 5 ثوان. على الرغم من أن جودة الإنتاج في المشاهد المعقدة لا تزال بحاجة إلى تحسين، إلا أن التحكم في التكاليف أصبح جيدًا جدًا.
تتمتع هذه الاختراقات التكنولوجية بقيمة وأهمية كبيرة في جوانب مثل جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق. من وجهة نظر تقنية، فإن تعقيد توليد الفيديو متعدد الأنماط هو تعقيد أسّي. فهو لا يتعامل فقط مع نقاط البكسل في الصورة الفردية، بل يجب أن يضمن أيضًا اتساق توقيت الفيديو، وتزامن الصوت، واتساق الفضاء ثلاثي الأبعاد. الآن، من خلال التفكيك المعياري والتعاون بين النماذج الكبيرة، أصبحت هذه المهمة المعقدة ممكنة.
فيما يتعلق بالتكاليف، تكمن التحسينات في بنية الاستدلال نفسها، بما في ذلك استراتيجية التوليد الطبقية، وآلية إعادة استخدام التخزين المؤقت، وتخصيص الموارد الديناميكي. هذه التحسينات أدت إلى خفض كبير في تكلفة توليد الفيديو.
لقد كان لهذه التقدمات التكنولوجية تأثير كبير على مجالات التطبيق. إنتاج الفيديو التقليدي هو صناعة تتطلب استثمارات ضخمة، حيث تحتاج إلى الكثير من المعدات، والمساحات، والممثلين، وما بعد الإنتاج. بينما تقوم تقنية الذكاء الاصطناعي بتبسيط هذه العملية إلى مجرد إدخال كلمات رئيسية وانتظار لبضع دقائق، مع تحقيق زوايا وتأثيرات يصعب الوصول إليها من خلال التصوير التقليدي. قد يؤدي هذا إلى إعادة تشكيل كامل لاقتصاد المبدعين.
تأثرت هذه التغيرات في جانب الطلب على تقنيات Web2 AI أيضًا بـ Web3 AI. أولاً، تغير هيكل طلب القدرة الحاسوبية، حيث تتطلب توليد الفيديو متعدد الوسائط مجموعة متنوعة من القدرات الحاسوبية، مما قد يزيد من الطلب على القدرة الحاسوبية الموزعة غير المستغلة. ثانيًا، ستزداد الحاجة إلى تصنيف البيانات، حيث يتطلب إنتاج الفيديو الاحترافي أوصاف مشاهد دقيقة، وصور مرجعية، وأنماط صوتية، وغيرها من البيانات الاحترافية. أخيرًا، بدأ الذكاء الاصطناعي في الانتقال من تخصيص الموارد المركزية على نطاق واسع إلى التعاون المعياري، وهو ما يعكس الحاجة الجديدة للمنصات اللامركزية.
في المستقبل، قد تشكل قوة الحوسبة والبيانات والنماذج وآليات التحفيز دوامة تعزز نفسها، مما يدفع نحو تكامل مشاهد Web3 AI وWeb2 AI. ستجلب هذه الاتجاهات فرصًا وتحديات جديدة للنظام البيئي AI بأكمله.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 12
أعجبني
12
5
مشاركة
تعليق
0/400
NotSatoshi
· منذ 17 س
آه، حتى ديزني ستتم الإطاحة بها.
شاهد النسخة الأصليةرد0
BoredApeResistance
· منذ 17 س
ما زلت تتفاخر؟ نسبة القبول 70% ومع ذلك تجرؤ على الاستعراض.
شاهد النسخة الأصليةرد0
NewDAOdreamer
· منذ 18 س
كل صورة يمكن أن تتحول إلى فيديو، لقد استمتعنا كثيرًا
شاهد النسخة الأصليةرد0
GasBandit
· منذ 18 س
مرة أخرى، مجموعة من الحمقى يتم خداع الناس لتحقيق الربح.
شاهد النسخة الأصليةرد0
HashBandit
· منذ 18 س
يا رجل... لا أستطيع حتى استخراج الإيثيريوم بعد الآن، لكن الآن الذكاء الاصطناعي يسرق وظائف التصيير أيضًا؟ أُغلق فمي تمامًا مثلما فعلت أجهزة ASIC بمزرعة وحدات معالجة الرسوميات الخاصة بي في عام '18
اختراق توليد الفيديو متعدد الوسائط بالذكاء الاصطناعي: فرص جديدة لدمج Web2 و Web3
#突破 تكنولوجيا إنشاء الفيديو متعدد الوسائط بالذكاء الاصطناعي وتأثيرها
أحد أبرز التغيرات في مجال الذكاء الاصطناعي مؤخرًا هو تقدم تقنية توليد الفيديو متعدد الوسائط. لقد تطورت هذه التقنية من توليد الفيديو من نصوص فقط إلى تقنية توليد شاملة تدمج النصوص والصور والصوت. وقد جلب هذا التقدم العديد من حالات الاختراق التكنولوجي المثيرة للاهتمام.
شركة تكنولوجيا معروفة أصدرت إطار عمل مفتوح المصدر يمكنه تحويل الفيديو أحادي العدسة إلى محتوى 4D بزاوية رؤية حرة، مع نسبة رضا المستخدمين تصل إلى 70.7%. هذا يعني أن الذكاء الاصطناعي يمكنه الآن توليد تأثيرات المشاهدة من أي زاوية تلقائيًا، وهو ما كان يتطلب في السابق فريقًا محترفًا من نمذجة ثلاثية الأبعاد.
أطلقت شركة أخرى منصة تدعي أنها قادرة على تحويل صورة واحدة إلى فيديو "بجودة سينمائية" مدته 10 ثوانٍ. على الرغم من أن هذا الادعاء قد يحتوي على مبالغات، إلا أنه لا يزال من المتوقع أن يتم إصدار نسخة احترافية قريبًا.
تكنولوجيا طورتها إدارة الأبحاث في الذكاء الاصطناعي لشركة تكنولوجيا دولية كبرى يمكنها توليد فيديو بدقة 4K وصوت بيئي في وقت واحد. النقطة الرئيسية في هذه التكنولوجيا هي تحقيق مطابقة حقيقية على المستوى الدلالي، مما يتغلب على تحديات مزامنة الصوت والصورة في المشاهد المعقدة، مثل التطابق الدقيق بين حركة المشي في الصورة وصوت الخطوات.
نموذج الذكاء الاصطناعي لشركة وسائط اجتماعية، يحتوي على 8 مليارات معلمة، يمكنه إنتاج فيديو بدقة 1080p في 2.3 ثانية، بتكلفة 3.67 يوان لكل 5 ثوان. على الرغم من أن جودة الإنتاج في المشاهد المعقدة لا تزال بحاجة إلى تحسين، إلا أن التحكم في التكاليف أصبح جيدًا جدًا.
تتمتع هذه الاختراقات التكنولوجية بقيمة وأهمية كبيرة في جوانب مثل جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق. من وجهة نظر تقنية، فإن تعقيد توليد الفيديو متعدد الأنماط هو تعقيد أسّي. فهو لا يتعامل فقط مع نقاط البكسل في الصورة الفردية، بل يجب أن يضمن أيضًا اتساق توقيت الفيديو، وتزامن الصوت، واتساق الفضاء ثلاثي الأبعاد. الآن، من خلال التفكيك المعياري والتعاون بين النماذج الكبيرة، أصبحت هذه المهمة المعقدة ممكنة.
فيما يتعلق بالتكاليف، تكمن التحسينات في بنية الاستدلال نفسها، بما في ذلك استراتيجية التوليد الطبقية، وآلية إعادة استخدام التخزين المؤقت، وتخصيص الموارد الديناميكي. هذه التحسينات أدت إلى خفض كبير في تكلفة توليد الفيديو.
لقد كان لهذه التقدمات التكنولوجية تأثير كبير على مجالات التطبيق. إنتاج الفيديو التقليدي هو صناعة تتطلب استثمارات ضخمة، حيث تحتاج إلى الكثير من المعدات، والمساحات، والممثلين، وما بعد الإنتاج. بينما تقوم تقنية الذكاء الاصطناعي بتبسيط هذه العملية إلى مجرد إدخال كلمات رئيسية وانتظار لبضع دقائق، مع تحقيق زوايا وتأثيرات يصعب الوصول إليها من خلال التصوير التقليدي. قد يؤدي هذا إلى إعادة تشكيل كامل لاقتصاد المبدعين.
تأثرت هذه التغيرات في جانب الطلب على تقنيات Web2 AI أيضًا بـ Web3 AI. أولاً، تغير هيكل طلب القدرة الحاسوبية، حيث تتطلب توليد الفيديو متعدد الوسائط مجموعة متنوعة من القدرات الحاسوبية، مما قد يزيد من الطلب على القدرة الحاسوبية الموزعة غير المستغلة. ثانيًا، ستزداد الحاجة إلى تصنيف البيانات، حيث يتطلب إنتاج الفيديو الاحترافي أوصاف مشاهد دقيقة، وصور مرجعية، وأنماط صوتية، وغيرها من البيانات الاحترافية. أخيرًا، بدأ الذكاء الاصطناعي في الانتقال من تخصيص الموارد المركزية على نطاق واسع إلى التعاون المعياري، وهو ما يعكس الحاجة الجديدة للمنصات اللامركزية.
في المستقبل، قد تشكل قوة الحوسبة والبيانات والنماذج وآليات التحفيز دوامة تعزز نفسها، مما يدفع نحو تكامل مشاهد Web3 AI وWeb2 AI. ستجلب هذه الاتجاهات فرصًا وتحديات جديدة للنظام البيئي AI بأكمله.