تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى ثورة تقنية التعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلي. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "صناعة ثقيلة" حقيقية لبناء نظام الذكاء الاصطناعي. من منظور نماذج البنية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة محلية عالية الأداء، من الأجهزة والبرمجيات الأساسية ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيقها بواسطة نظام تحكم موحد. هذه البنية التحتية المتكاملة تعزز كفاءة المشاركة في الذاكرة، وتزامن التدرجات، وآليات التحمل، مما يجعلها مثالية لتدريب نماذج كبيرة مثل GPT وGemini، ولها مزايا من حيث الكفاءة والتحكم في الموارد، ولكنها تعاني في نفس الوقت من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة الرئيسية لتدريب النماذج الكبيرة في الوقت الحالي، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، لتجاوز قيود الحساب والتخزين على الآلة الواحدة. على الرغم من أن لديه خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية تتحكم في الجدولة والتزامن، وغالبًا ما يعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الاتصال عالي السرعة NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية:
التوازي البياني: كل عقدة تقوم بتدريب بيانات مختلفة مع مشاركة المعلمات، ويتطلب ذلك مطابقة أوزان النموذج
التوازي بين النماذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسيع قوية
تنفيذ متسلسل على مراحل: زيادة معدل النقل
التوازي الشعاعي: تقسيم دقيق لحساب المصفوفة, تحسين درجة التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مشابهًا لكيفية توجيه نفس المدير لعدة موظفين في "مكاتب" مختلفة للتعاون في إكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل خصائصها الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهمة التدريب بدون منسق مركزي، عادةً من خلال بروتوكولات لتحفيز توزيع المهام والتعاون، ومن خلال آليات تحفيز تشفير لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التوافق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة تنسيق الأجهزة المتنوعة وانخفاض كفاءة تقسيم المهام
عنق الزجاجة في كفاءة الاتصال: الاتصالات الشبكية غير مستقرة، وعنق الزجاجة في تزامن التدرجات واضح.
نقص التنفيذ الموثوق: عدم وجود بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعليًا في الحساب
نقص التنسيق الموحد: لا يوجد منسق مركزي، توزيع المهام، آلية التراجع عن الأخطاء معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحساب لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا منهجيًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز نزيه + نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، يؤكد على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويتناسب مع السيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي الوقت نفسه يحمل مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص الانفتاح الكامل ومكافحة الرقابة. يمكن اعتباره كخيار "لامركزي خاضع للرقابة" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالاً في مهام التدريب، وهيكل الثقة وآلية الاتصال، مما يجعله مناسبًا أكثر كهيكل نشر انتقالي في الصناعة.
جدول المقارنة الشاملة لنماذج تدريب الذكاء الاصطناعي( بنية التكنولوجيا × الحوافز القائمة على الثقة × ميزات التطبيق)
اللامركزية تدريب الحدود، الفرص وطرق الواقع
من منظور نمط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، ومتطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في شبكة مفتوحة؛ كما أن المهام التي تفرض قيودًا قوية على خصوصية البيانات والسيادة تتقيد بالامتثال القانوني والأخلاقي، مما يمنع المشاركة المفتوحة؛ في حين أن المهام التي تفتقر إلى حوافز التعاون الأساسية تفتقر إلى دوافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام الخفيفة الهيكل، سهلة التوازي، القابلة للتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام ما بعد التدريب المتوافقة مع السلوك، مهام تدريب وتوسيم البيانات الجماعية، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وسيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، وقابلية تحمل الطاقة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، بروتوكول Swarm، محسنات موزعة وغيرها.
نظرة عامة على ملاءمة مهام التدريب اللامركزية
اللامركزية تدريب الكلاسيكيات تحليل المشاريع
حاليا، في مجالات التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع الرئيسية الممثلة في تقنية البلوك تشين Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما تعتبر طرق تنفيذ Gensyn وFlock.io واضحة نسبياً، حيث يمكن رؤية التقدم الهندسي الأولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهياكل الهندسية وراء هذه المشاريع الخمسة، وستناقش المزيد عن اختلافاتها وعلاقاتها التكاملية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد شبكة التعاون في التعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب الذكاء الاصطناعي التي لا تحتاج إلى ثقة، بحيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة مكونات رئيسية هي PRIME-RL و TOPLOC و SHARDCAST، في بناء نظام تدريب ذكاء اصطناعي لامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز مكتملة.
هيكل بروتوكول Prime Intellect وقيمة الوحدات الرئيسية
ثانياً، شرح آلية التدريب الأساسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي للتكيف، حيث يفصل بشكل هيكلي عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضعة للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويؤسس أيضًا لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية نواة للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم استراتيجية فعالة استنادًا إلى بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج الكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "سلسلة الملاحظات ↔ تحديث الاستراتيجية" بين مسارات التناسق المحلي. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك أثناء عملية التدريب إلى كائنات يمكن التحقق منها، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نشر وتجميع الوزن الذي صممه Prime Intellect، وهو مصمم خصيصًا لبيئات الشبكة الحقيقية التي تعاني من عدم التزامن، وقيود النطاق الترددي، وتغير حالات العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق تقارب تدريجي للوزن وتطور متعدد الإصدارات. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير من قابلية توسيع التدريب اللامركزي وقدرته على تحمل الأخطاء، وهو الأساس الرئيسي لبناء توافق وزن مستقر وتدريب مستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، واختلاف الأجهزة، وعدم استقرار العقد. يعتمد هيكله على البيانات المتوازية، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للاتصال الناتجة عن التزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. بالجمع بين التحديثات غير المتزامنة وآلية التحمل عند نقاط الانقطاع، يجعل OpenDiLoCo أجهزة GPU الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب AI اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية في الأجهزة المتغايرة وشبكات ذات عرض نطاق منخفض. يدعم PCCL الطوبولوجيا المتناثرة، ضغط التدرجات، التزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرات الاتصال غير المتزامن لبروتوكول OpenDiLoCo. يعزز بشكل ملحوظ من قدرة الشبكة على تحمل عرض النطاق الترددي وتوافق الأجهزة، ويفتح "الكيلومتر الأخير" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة.
ثالثاً، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق وبدون إذن مزودة بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقدة التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
أربعة، INTELLECT-2: إطلاق أول نموذج تدريب لامركزي يمكن التحقق منه
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه بواسطة تعاون غير متزامن وموثوق به من العقد اللامركزية، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU متباينة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن تمامًا، حيث استغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة غير المتزامنة. هذا النموذج ليس فقط اختراقًا في الأداء، ولكنه أيضًا أول تطبيق نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 11
أعجبني
11
3
مشاركة
تعليق
0/400
OnlyOnMainnet
· منذ 8 س
آه، هذه مرة أخرى رسم فطيرة، ما قيل يعني أنه لم يُقال شيء.
شاهد النسخة الأصليةرد0
FarmHopper
· منذ 8 س
وصلت إلى أعلى الأبعاد هذه
شاهد النسخة الأصليةرد0
OnChainDetective
· منذ 8 س
همم... للتو تتبعت نمط تدفق بيانات التدريب... يبدو مشبوهًا مثل نقطة فشل واحدة بصراحة
تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية في التعاون اللامركزي
تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى ثورة تقنية التعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلي. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "صناعة ثقيلة" حقيقية لبناء نظام الذكاء الاصطناعي. من منظور نماذج البنية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
التدريب المركزي هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة محلية عالية الأداء، من الأجهزة والبرمجيات الأساسية ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيقها بواسطة نظام تحكم موحد. هذه البنية التحتية المتكاملة تعزز كفاءة المشاركة في الذاكرة، وتزامن التدرجات، وآليات التحمل، مما يجعلها مثالية لتدريب نماذج كبيرة مثل GPT وGemini، ولها مزايا من حيث الكفاءة والتحكم في الموارد، ولكنها تعاني في نفس الوقت من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة الرئيسية لتدريب النماذج الكبيرة في الوقت الحالي، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، لتجاوز قيود الحساب والتخزين على الآلة الواحدة. على الرغم من أن لديه خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية تتحكم في الجدولة والتزامن، وغالبًا ما يعمل في بيئة شبكة محلية سريعة، من خلال تقنية ناقل الاتصال عالي السرعة NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، مشابهًا لكيفية توجيه نفس المدير لعدة موظفين في "مكاتب" مختلفة للتعاون في إكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل خصائصها الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهمة التدريب بدون منسق مركزي، عادةً من خلال بروتوكولات لتحفيز توزيع المهام والتعاون، ومن خلال آليات تحفيز تشفير لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحساب لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا منهجيًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز نزيه + نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، يؤكد على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويتناسب مع السيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي الوقت نفسه يحمل مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص الانفتاح الكامل ومكافحة الرقابة. يمكن اعتباره كخيار "لامركزي خاضع للرقابة" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالاً في مهام التدريب، وهيكل الثقة وآلية الاتصال، مما يجعله مناسبًا أكثر كهيكل نشر انتقالي في الصناعة.
جدول المقارنة الشاملة لنماذج تدريب الذكاء الاصطناعي( بنية التكنولوجيا × الحوافز القائمة على الثقة × ميزات التطبيق)
اللامركزية تدريب الحدود، الفرص وطرق الواقع
من منظور نمط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، ومتطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في شبكة مفتوحة؛ كما أن المهام التي تفرض قيودًا قوية على خصوصية البيانات والسيادة تتقيد بالامتثال القانوني والأخلاقي، مما يمنع المشاركة المفتوحة؛ في حين أن المهام التي تفتقر إلى حوافز التعاون الأساسية تفتقر إلى دوافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام الخفيفة الهيكل، سهلة التوازي، القابلة للتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام ما بعد التدريب المتوافقة مع السلوك، مهام تدريب وتوسيم البيانات الجماعية، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وسيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، وقابلية تحمل الطاقة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، بروتوكول Swarm، محسنات موزعة وغيرها.
نظرة عامة على ملاءمة مهام التدريب اللامركزية
اللامركزية تدريب الكلاسيكيات تحليل المشاريع
حاليا، في مجالات التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع الرئيسية الممثلة في تقنية البلوك تشين Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما تعتبر طرق تنفيذ Gensyn وFlock.io واضحة نسبياً، حيث يمكن رؤية التقدم الهندسي الأولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهياكل الهندسية وراء هذه المشاريع الخمسة، وستناقش المزيد عن اختلافاتها وعلاقاتها التكاملية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد شبكة التعاون في التعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب الذكاء الاصطناعي التي لا تحتاج إلى ثقة، بحيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة مكونات رئيسية هي PRIME-RL و TOPLOC و SHARDCAST، في بناء نظام تدريب ذكاء اصطناعي لامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز مكتملة.
ثانياً، شرح آلية التدريب الأساسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي للتكيف، حيث يفصل بشكل هيكلي عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضعة للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويؤسس أيضًا لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية نواة للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم استراتيجية فعالة استنادًا إلى بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج الكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "سلسلة الملاحظات ↔ تحديث الاستراتيجية" بين مسارات التناسق المحلي. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك أثناء عملية التدريب إلى كائنات يمكن التحقق منها، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نشر وتجميع الوزن الذي صممه Prime Intellect، وهو مصمم خصيصًا لبيئات الشبكة الحقيقية التي تعاني من عدم التزامن، وقيود النطاق الترددي، وتغير حالات العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق تقارب تدريجي للوزن وتطور متعدد الإصدارات. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير من قابلية توسيع التدريب اللامركزي وقدرته على تحمل الأخطاء، وهو الأساس الرئيسي لبناء توافق وزن مستقر وتدريب مستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، واختلاف الأجهزة، وعدم استقرار العقد. يعتمد هيكله على البيانات المتوازية، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للاتصال الناتجة عن التزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. بالجمع بين التحديثات غير المتزامنة وآلية التحمل عند نقاط الانقطاع، يجعل OpenDiLoCo أجهزة GPU الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب AI اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية في الأجهزة المتغايرة وشبكات ذات عرض نطاق منخفض. يدعم PCCL الطوبولوجيا المتناثرة، ضغط التدرجات، التزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرات الاتصال غير المتزامن لبروتوكول OpenDiLoCo. يعزز بشكل ملحوظ من قدرة الشبكة على تحمل عرض النطاق الترددي وتوافق الأجهزة، ويفتح "الكيلومتر الأخير" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة.
ثالثاً، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بني Prime Intellect شبكة تدريب قابلة للتحقق وبدون إذن مزودة بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
أربعة، INTELLECT-2: إطلاق أول نموذج تدريب لامركزي يمكن التحقق منه
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه بواسطة تعاون غير متزامن وموثوق به من العقد اللامركزية، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU متباينة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن تمامًا، حيث استغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة غير المتزامنة. هذا النموذج ليس فقط اختراقًا في الأداء، ولكنه أيضًا أول تطبيق نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect.