A competição de IA esquenta, quem conseguirá vencer na "Guerra dos Cem Modelos"?
No mês passado, ocorreu uma "guerra de animais" no campo da IA. De um lado está o modelo Llama (Lhama) lançado pela Meta, e do outro lado está o grande modelo chamado Falcon (Falcão).
Llama é muito popular entre os desenvolvedores devido à sua natureza de código aberto. Após a pesquisa do artigo e do código-fonte do Llama, a empresa japonesa NEC desenvolveu rapidamente um chatbot em japonês. Por outro lado, o Falcon foi desenvolvido pelo Instituto de Inovação Tecnológica dos Emirados Árabes Unidos e já superou o Llama no ranking de modelos de código aberto.
Atualmente, o campo da IA entrou na fase de "luta entre os grandes". Países e empresas com força estão se esforçando para desenvolver seus próprios grandes modelos de linguagem. Somente na região do Golfo, a Arábia Saudita comprou mais de 3000 chips H100 para treinamento em universidades locais.
Este fenômeno de "um país, um modelo" leva a questionar: como a tecnologia de IA, que se diz de alto nível, evoluiu para uma "batalha de cem modelos"?
O algoritmo Transformer muda as regras do jogo
A ascensão de vários grandes modelos atualmente deve-se ao artigo "Attention Is All You Need" publicado pelo Google em 2017. O algoritmo Transformer proposto nesse artigo tornou-se a chave para essa onda atual de IA.
O Transformer resolveu o problema dos primeiros redes neurais que tinham dificuldade em entender o contexto de longos textos. Ele utiliza codificação de posição em vez de design recorrente, permitindo computação paralela e aumentando significativamente a eficiência do treinamento. Isso fez com que a IA passasse da pesquisa teórica para a prática de engenharia, impulsionando a chegada da era dos grandes modelos.
Em 2019, a OpenAI desenvolveu o modelo GPT-2 baseado em Transformer. Em seguida, o Google lançou o Meena, com desempenho superior, principalmente aumentando parâmetros e capacidade de computação. Essa abordagem de "empilhamento violento" chocou a comunidade acadêmica.
Atualmente, a velocidade de inovação dos algoritmos de base diminuiu, e elementos de engenharia como engenharia de dados e escala de computação tornaram-se fundamentais na competição de IA. Empresas de tecnologia com certa força técnica conseguem desenvolver grandes modelos.
Entrar é fácil, ter sucesso é difícil
Embora a barreira de entrada não seja alta, não é fácil tornar-se uma empresa líder na era da IA. Tomando a disputa entre Falcon e Llama como exemplo, embora o Falcon esteja classificado mais alto, é difícil causar um impacto substancial na Meta.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva. A Meta estabeleceu a sua rota de código aberto já em 2015, entendendo bem a operação da comunidade. Atualmente, a série Llama tornou-se um padrão para LLMs de código aberto, com muitos modelos sendo desenvolvidos com base nela.
Em termos de desempenho, a maioria dos LLM ainda apresenta uma diferença significativa em relação ao GPT-4. No teste AgentBench, o GPT-4 lidera com 4,41 pontos, enquanto o segundo classificado, Claude, obteve apenas 2,77 pontos, e os modelos de código aberto ficam em torno de 1 ponto.
A causa dessa diferença é a equipe de cientistas de elite da OpenAI e a experiência acumulada ao longo do tempo. Assim, a principal vantagem dos grandes modelos reside na construção do ecossistema ou na pura capacidade de raciocínio, e não na simples acumulação de parâmetros.
O desequilíbrio entre custos e receitas torna-se um problema
Atualmente, os fornecedores de grandes modelos enfrentam um sério desbalanceamento entre custos e receitas. Estima-se que as empresas de tecnologia em todo o mundo gastarão anualmente 200 mil milhões de dólares em infraestrutura de grandes modelos, mas as receitas não passam de 75 mil milhões de dólares, existindo uma lacuna de pelo menos 125 mil milhões de dólares.
Mesmo gigantes como a Microsoft e a Adobe têm dificuldade em lucrar com produtos de IA. Por exemplo, o GitHub Copilot custa 20 dólares por mês por usuário, e usuários intensivos chegam a fazer a Microsoft perder 80 dólares. A Adobe teve que implementar um sistema de pontos para limitar o uso.
Para a maioria dos grandes modelos com uma sobrecarga de parâmetros, os principais cenários de aplicação ainda estão limitados ao chat. À medida que a competição homogeneizada se intensifica e mais modelos de código aberto surgem, os fornecedores de grandes modelos enfrentarão desafios ainda maiores.
No futuro, as empresas de IA que realmente se destacarem talvez não estejam no modelo em si, mas sim em como combinar a IA de forma profunda com cenários de aplicação reais, criando valor real para os usuários. Assim como o sucesso do iPhone 4 não estava no processador, mas sim no rico ecossistema de aplicações.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
13 Curtidas
Recompensa
13
3
Compartilhar
Comentário
0/400
CommunityLurker
· 16h atrás
Copiar trabalho de casa não custa dinheiro
Ver originalResponder0
Web3ExplorerLin
· 17h atrás
hipótese: este drama de IA parece as guerras iniciais da blockchain... mesmas vibrações fr
A competição entre grandes modelos de IA intensifica-se, o Gota de tecnologia diminui, e a rentabilidade torna-se um desafio.
A competição de IA esquenta, quem conseguirá vencer na "Guerra dos Cem Modelos"?
No mês passado, ocorreu uma "guerra de animais" no campo da IA. De um lado está o modelo Llama (Lhama) lançado pela Meta, e do outro lado está o grande modelo chamado Falcon (Falcão).
Llama é muito popular entre os desenvolvedores devido à sua natureza de código aberto. Após a pesquisa do artigo e do código-fonte do Llama, a empresa japonesa NEC desenvolveu rapidamente um chatbot em japonês. Por outro lado, o Falcon foi desenvolvido pelo Instituto de Inovação Tecnológica dos Emirados Árabes Unidos e já superou o Llama no ranking de modelos de código aberto.
Atualmente, o campo da IA entrou na fase de "luta entre os grandes". Países e empresas com força estão se esforçando para desenvolver seus próprios grandes modelos de linguagem. Somente na região do Golfo, a Arábia Saudita comprou mais de 3000 chips H100 para treinamento em universidades locais.
Este fenômeno de "um país, um modelo" leva a questionar: como a tecnologia de IA, que se diz de alto nível, evoluiu para uma "batalha de cem modelos"?
O algoritmo Transformer muda as regras do jogo
A ascensão de vários grandes modelos atualmente deve-se ao artigo "Attention Is All You Need" publicado pelo Google em 2017. O algoritmo Transformer proposto nesse artigo tornou-se a chave para essa onda atual de IA.
O Transformer resolveu o problema dos primeiros redes neurais que tinham dificuldade em entender o contexto de longos textos. Ele utiliza codificação de posição em vez de design recorrente, permitindo computação paralela e aumentando significativamente a eficiência do treinamento. Isso fez com que a IA passasse da pesquisa teórica para a prática de engenharia, impulsionando a chegada da era dos grandes modelos.
Em 2019, a OpenAI desenvolveu o modelo GPT-2 baseado em Transformer. Em seguida, o Google lançou o Meena, com desempenho superior, principalmente aumentando parâmetros e capacidade de computação. Essa abordagem de "empilhamento violento" chocou a comunidade acadêmica.
Atualmente, a velocidade de inovação dos algoritmos de base diminuiu, e elementos de engenharia como engenharia de dados e escala de computação tornaram-se fundamentais na competição de IA. Empresas de tecnologia com certa força técnica conseguem desenvolver grandes modelos.
Entrar é fácil, ter sucesso é difícil
Embora a barreira de entrada não seja alta, não é fácil tornar-se uma empresa líder na era da IA. Tomando a disputa entre Falcon e Llama como exemplo, embora o Falcon esteja classificado mais alto, é difícil causar um impacto substancial na Meta.
Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira vantagem competitiva. A Meta estabeleceu a sua rota de código aberto já em 2015, entendendo bem a operação da comunidade. Atualmente, a série Llama tornou-se um padrão para LLMs de código aberto, com muitos modelos sendo desenvolvidos com base nela.
Em termos de desempenho, a maioria dos LLM ainda apresenta uma diferença significativa em relação ao GPT-4. No teste AgentBench, o GPT-4 lidera com 4,41 pontos, enquanto o segundo classificado, Claude, obteve apenas 2,77 pontos, e os modelos de código aberto ficam em torno de 1 ponto.
A causa dessa diferença é a equipe de cientistas de elite da OpenAI e a experiência acumulada ao longo do tempo. Assim, a principal vantagem dos grandes modelos reside na construção do ecossistema ou na pura capacidade de raciocínio, e não na simples acumulação de parâmetros.
O desequilíbrio entre custos e receitas torna-se um problema
Atualmente, os fornecedores de grandes modelos enfrentam um sério desbalanceamento entre custos e receitas. Estima-se que as empresas de tecnologia em todo o mundo gastarão anualmente 200 mil milhões de dólares em infraestrutura de grandes modelos, mas as receitas não passam de 75 mil milhões de dólares, existindo uma lacuna de pelo menos 125 mil milhões de dólares.
Mesmo gigantes como a Microsoft e a Adobe têm dificuldade em lucrar com produtos de IA. Por exemplo, o GitHub Copilot custa 20 dólares por mês por usuário, e usuários intensivos chegam a fazer a Microsoft perder 80 dólares. A Adobe teve que implementar um sistema de pontos para limitar o uso.
Para a maioria dos grandes modelos com uma sobrecarga de parâmetros, os principais cenários de aplicação ainda estão limitados ao chat. À medida que a competição homogeneizada se intensifica e mais modelos de código aberto surgem, os fornecedores de grandes modelos enfrentarão desafios ainda maiores.
No futuro, as empresas de IA que realmente se destacarem talvez não estejam no modelo em si, mas sim em como combinar a IA de forma profunda com cenários de aplicação reais, criando valor real para os usuários. Assim como o sucesso do iPhone 4 não estava no processador, mas sim no rico ecossistema de aplicações.