A Rede na Era da IA: Origem da Demanda e Direções de Inovação
Com o surgimento de grandes modelos, a rede tornou-se cada vez mais importante na infraestrutura de IA. Este artigo irá explorar, a partir dos princípios, por que a rede se tornou uma parte fundamental da era da IA, além de analisar as tendências de inovação e oportunidades de investimento no lado da rede para o futuro.
1. A origem da demanda de rede
Na era dos grandes modelos, a diferença entre o volume do modelo e o limite de capacidade de cálculo de uma única placa gráfica está rapidamente a aumentar, e os clusters de múltiplos servidores tornaram-se a solução, o que constitui a base para a crescente importância da rede na era da IA. Em comparação com o passado, em que a rede era utilizada apenas para a transmissão de dados, hoje em dia a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que exige uma maior densidade e capacidade da rede.
Tamanho do modelo em constante crescimento:
Tempo de treinamento = Escala de dados de treinamento x Quantidade de parâmetros do modelo / Taxa de cálculo
Taxa de cálculo = Taxa de cálculo por dispositivo x Número de dispositivos x Eficiência de paralelismo de múltiplos dispositivos
Enquanto se busca um maior volume de dados de treinamento e parâmetros, melhorar a eficiência computacional torna-se a chave para reduzir o tempo de treinamento. E como expandir o "número de dispositivos" e aumentar a "eficiência paralela" diretamente determina o nível de poder computacional.
Comunicação complexa de múltiplas placas sincronizadas:
No treinamento de grandes modelos, após dividir o modelo para uma única placa, é necessário realizar o alinhamento após cada cálculo ( Reduce, Gather, etc. Na primitiva de comunicação NCCL da NVIDIA, All-to-All ) onde todos os nós obtêm valores uns dos outros e realizam o alinhamento (, é uma operação bastante comum, exigindo maiores requisitos de transmissão e troca de rede.
Custo de falha cada vez mais elevado:
O treinamento de grandes modelos geralmente dura meses e, após uma interrupção, é necessário retornar ao ponto de verificação anterior para reiniciar o treinamento. Qualquer falha ou alta latência em qualquer parte da rede pode causar interrupções, resultando em atrasos no progresso e aumento de custos. As redes de IA modernas evoluíram para se tornarem sistemas de engenharia complexos comparáveis a aviões e porta-aviões.
2. Direções da inovação na rede
No contexto da expansão da escala de investimento em poder de computação e da contínua expansão dos parâmetros do modelo, a "redução de custos", a "abertura" e o equilíbrio da escala de poder de computação tornaram-se os principais tópicos da inovação na rede.
Mudança de meio de comunicação:
A luz, o cobre e o silício são os três principais meios de transmissão da humanidade. Na era da IA, os módulos de luz, enquanto buscam taxas de transmissão mais altas, também começaram o caminho de redução de custos com LPO, LRO, silício fotônico, entre outros. Os cabos de cobre dominaram as conexões dentro dos racks devido à sua relação custo-benefício e baixa taxa de falhas. Novas tecnologias de semicondutores, como Chiplet e Wafer-scaling, estão explorando os limites da interconexão baseada em silício.
Competição de Protocolos de Rede:
Os protocolos de comunicação entre placas e a forte ligação às placas gráficas, como o NV-LINK da NVIDIA e o Infinity Fabric da AMD, determinam o limite de capacidade de um único servidor ou de um único nó de computação, sendo um campo de intensa concorrência entre os gigantes. A comunicação entre nós concentra-se principalmente na competição entre IB e Ethernet.
Mudanças na arquitetura de rede:
A arquitetura de rede entre os nós atuais geralmente adota a arquitetura leaf-spine, que possui características de conveniência, simplicidade e estabilidade. No entanto, com o aumento do número de nós em um único cluster, a arquitetura leaf-spine torna-se redundante em clusters super grandes, resultando em custos de rede elevados. Novas soluções, como a arquitetura Dragonfly e a arquitetura rail-only, têm potencial para se tornarem a direção evolutiva para a próxima geração de clusters super grandes.
3. Sugestões de Investimento
Núcleo do sistema de comunicação:
Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Yingweike, Hudian股份
Inovação no sistema de comunicação:
Changfei Fiber Optics, Taicheng Technology, Yuanjie Technology, Shengkete Communication-U, Cambrian, Dekeli
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
15 Curtidas
Recompensa
15
4
Compartilhar
Comentário
0/400
GovernancePretender
· 18h atrás
Ou seja, quem tiver a placa gráfica mais poderosa ganha.
Ver originalResponder0
Blockblind
· 08-04 03:18
Esta divisão está muito boa, comprar, comprar, comprar.
Ver originalResponder0
SandwichVictim
· 08-04 03:05
A instituição está a fazer promessas vazias de novo, certo?
Ver originalResponder0
CryptoNomics
· 08-04 03:00
*sigh* a escalabilidade da rede segue a curva de gompertz, o seu modelo ignora restrições críticas de throughput. deixe-me fazer uma rápida regressão...
Aumento da Demanda de Rede na Era da IA: Análise das Tendências Inovadoras e Oportunidades de Investimento
A Rede na Era da IA: Origem da Demanda e Direções de Inovação
Com o surgimento de grandes modelos, a rede tornou-se cada vez mais importante na infraestrutura de IA. Este artigo irá explorar, a partir dos princípios, por que a rede se tornou uma parte fundamental da era da IA, além de analisar as tendências de inovação e oportunidades de investimento no lado da rede para o futuro.
1. A origem da demanda de rede
Na era dos grandes modelos, a diferença entre o volume do modelo e o limite de capacidade de cálculo de uma única placa gráfica está rapidamente a aumentar, e os clusters de múltiplos servidores tornaram-se a solução, o que constitui a base para a crescente importância da rede na era da IA. Em comparação com o passado, em que a rede era utilizada apenas para a transmissão de dados, hoje em dia a rede é mais utilizada para sincronizar os parâmetros do modelo entre as placas gráficas, o que exige uma maior densidade e capacidade da rede.
Tamanho do modelo em constante crescimento:
Enquanto se busca um maior volume de dados de treinamento e parâmetros, melhorar a eficiência computacional torna-se a chave para reduzir o tempo de treinamento. E como expandir o "número de dispositivos" e aumentar a "eficiência paralela" diretamente determina o nível de poder computacional.
Comunicação complexa de múltiplas placas sincronizadas: No treinamento de grandes modelos, após dividir o modelo para uma única placa, é necessário realizar o alinhamento após cada cálculo ( Reduce, Gather, etc. Na primitiva de comunicação NCCL da NVIDIA, All-to-All ) onde todos os nós obtêm valores uns dos outros e realizam o alinhamento (, é uma operação bastante comum, exigindo maiores requisitos de transmissão e troca de rede.
Custo de falha cada vez mais elevado: O treinamento de grandes modelos geralmente dura meses e, após uma interrupção, é necessário retornar ao ponto de verificação anterior para reiniciar o treinamento. Qualquer falha ou alta latência em qualquer parte da rede pode causar interrupções, resultando em atrasos no progresso e aumento de custos. As redes de IA modernas evoluíram para se tornarem sistemas de engenharia complexos comparáveis a aviões e porta-aviões.
2. Direções da inovação na rede
No contexto da expansão da escala de investimento em poder de computação e da contínua expansão dos parâmetros do modelo, a "redução de custos", a "abertura" e o equilíbrio da escala de poder de computação tornaram-se os principais tópicos da inovação na rede.
Mudança de meio de comunicação: A luz, o cobre e o silício são os três principais meios de transmissão da humanidade. Na era da IA, os módulos de luz, enquanto buscam taxas de transmissão mais altas, também começaram o caminho de redução de custos com LPO, LRO, silício fotônico, entre outros. Os cabos de cobre dominaram as conexões dentro dos racks devido à sua relação custo-benefício e baixa taxa de falhas. Novas tecnologias de semicondutores, como Chiplet e Wafer-scaling, estão explorando os limites da interconexão baseada em silício.
Competição de Protocolos de Rede: Os protocolos de comunicação entre placas e a forte ligação às placas gráficas, como o NV-LINK da NVIDIA e o Infinity Fabric da AMD, determinam o limite de capacidade de um único servidor ou de um único nó de computação, sendo um campo de intensa concorrência entre os gigantes. A comunicação entre nós concentra-se principalmente na competição entre IB e Ethernet.
Mudanças na arquitetura de rede: A arquitetura de rede entre os nós atuais geralmente adota a arquitetura leaf-spine, que possui características de conveniência, simplicidade e estabilidade. No entanto, com o aumento do número de nós em um único cluster, a arquitetura leaf-spine torna-se redundante em clusters super grandes, resultando em custos de rede elevados. Novas soluções, como a arquitetura Dragonfly e a arquitetura rail-only, têm potencial para se tornarem a direção evolutiva para a próxima geração de clusters super grandes.
3. Sugestões de Investimento
Núcleo do sistema de comunicação: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Industrial Fulian, Yingweike, Hudian股份
Inovação no sistema de comunicação: Changfei Fiber Optics, Taicheng Technology, Yuanjie Technology, Shengkete Communication-U, Cambrian, Dekeli
4. Aviso de Risco