Анализ роста сетевых потребностей в эпоху ИИ: тенденции инноваций и инвестиционные возможности

robot
Генерация тезисов в процессе

Сеть в эпоху ИИ: причины спроса и направления инноваций

С ростом больших моделей сеть становится все более важной частью инфраструктуры ИИ. В этой статье мы обсудим, почему сеть стала ключевым элементом в эпоху ИИ, начиная с принципов, и проанализируем будущие тенденции инноваций и инвестиционные возможности в области сети.

1. Источник сетевых требований

В эпоху больших моделей разрыв между объемом модели и предельной вычислительной мощностью одной видеокарты быстро увеличивается, и многосерверные кластеры становятся решением. Это составляет основу для повышения важности сети в эпоху ИИ. В отличие от прошлого, когда сеть использовалась исключительно для передачи данных, сегодня сеть в большей степени используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и емкости сети.

Увеличивающийся объем модели:

  • Время тренировки = Объем тренировочных данных x Количество параметров модели / Скорость вычислений
  • Скорость вычислений = скорость вычислений одного устройства x количество устройств x эффективность параллельных вычислений нескольких устройств

В то время как стремление к более масштабным тренировочным данным и параметрам становится важным, повышение вычислительной эффективности становится ключом к сокращению времени обучения. То, как через сеть увеличить "количество устройств" и повысить "параллельную эффективность", прямо определяет уровень вычислительной мощности.

Сложная коммуникация при многокартной синхронизации: В процессе обучения больших моделей, после разделения модели на отдельные карты, необходимо выполнять выравнивание после каждой вычислительной операции ( Reduce, Gather и т.д. В коммуникационных примитивах NCCL от NVIDIA операция All-to-All ), при которой все узлы получают значения друг от друга и выравниваются, довольно распространена и предъявляет более высокие требования к сетевой передаче и обмену.

Все более дорогие затраты на неисправности: Обучение больших моделей часто продолжается в течение нескольких месяцев, и после прерывания необходимо вернуться к предыдущей контрольной точке для повторного обучения. Сбой или высокая задержка на любом этапе сети могут привести к прерыванию, что влечет за собой отставание в прогрессе и увеличение затрат. Современные AI-сети развились в сложные системные инженерные проекты, сопоставимые с самолетами и авианосцами.

2. Направления сетевых инноваций

На фоне расширения масштабов инвестиций в вычислительную мощность и постоянного увеличения параметров моделей, "снижение затрат", "открытость" и баланс вычислительной мощности стали основными темами инноваций в сети.

Смена средств связи: Свет, медь и кремний — это три основных媒介 для передачи данных человечеством. В эпоху ИИ оптические модули стремятся к более высокой скорости, одновременно начиная путь снижения затрат с помощью LPO, LRO и кремниевой оптики. Медь благодаря соотношению цена-качество и низкой вероятности отказа занимает позиции в соединениях внутри шкафов. Новые полупроводниковые технологии, такие как Chiplet и Wafer-scaling, исследуют пределы кремниевой интерконнекции.

Конкуренция сетевых протоколов: Протоколы связи между чипами и сильная привязка к видеокартам, такие как NV-LINK от Nvidia и Infinity Fabric от AMD, определяют пределы возможностей одного сервера или одного узла вычислительной мощности и являются областью жесткой конкуренции среди гигантов. Конкуренция между узлами сосредоточена в основном вокруг IB и Ethernet.

Изменения в сетевой архитектуре: Текущая сетевая архитектура между узлами в основном использует архитектуру листьев и ребер, обладающую удобством, простотой и стабильностью. Однако с увеличением числа узлов в отдельном кластере архитектура листьев и ребер становится избыточной в сверхбольших кластерах, что приводит к высоким сетевым затратам. Архитектуры Dragonfly, rail-only и другие новые решения могут стать эволюционным направлением для следующего поколения сверхбольших кластеров.

3. Инвестиционные рекомендации

Ключевые элементы коммуникационной системы: Чжунцзи Сюйчуан, Синьи Сэн, Тяньфу Тунсин, Гунье Фулиань, Иньвэйк, Ху Дянь Гунсэ

Этапы инноваций в通信系统: Чанфэй оптоволокно, Тай Чэнь Гуан, Юаньцзе технологии, Шэнкэ Телеком - U, Ханвужи, Дэколи

4. Предупреждение о рисках

  • Спрос на ИИ ниже ожидаемого
  • Закон масштабирования утратил силу
  • Увеличение конкуренции в отрасли
ETH4.19%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Поделиться
комментарий
0/400
GovernancePretendervip
· 10ч назад
То есть, кто имеет больше всего мощных видеокарт, тот и победит.
Посмотреть ОригиналОтветить0
Blockblindvip
· 21ч назад
Эта доля разделена очень тонко, покупай, покупай, покупай.
Посмотреть ОригиналОтветить0
SandwichVictimvip
· 22ч назад
Наверняка организация снова рисует иллюзии.
Посмотреть ОригиналОтветить0
CryptoNomicsvip
· 22ч назад
*вздох* масштабирование сети следует кривой Гомпертца, ваша модель игнорирует критические ограничения пропускной способности. Позвольте мне быстро провести регрессию...
Посмотреть ОригиналОтветить0
  • Закрепить