La competencia de IA se intensifica, ¿quién podrá salir victorioso en la "batalla de los cien modelos"?
El mes pasado, estalló una "guerra de animales" en el campo de la IA. Por un lado está el modelo Llama (lama) lanzado por Meta, y por el otro lado está el gran modelo llamado Falcon (halcón).
Llama es muy popular entre los desarrolladores debido a su naturaleza de código abierto. Después de estudiar el documento y el código fuente de Llama, la empresa japonesa NEC desarrolló rápidamente un chatbot en japonés. Por otro lado, Falcon fue desarrollado por el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos, y ha superado a Llama en la clasificación de modelos de código abierto.
Actualmente, el campo de la IA ha entrado en la etapa de "la lucha por la supremacía". Países y empresas con capacidades están trabajando para crear sus propios modelos de lenguaje a gran escala. Solo en la región del Golfo, Arabia Saudita ha adquirido más de 3000 chips H100 para entrenar en universidades nacionales.
Este fenómeno de "un país, un modelo" no puede evitar suscitar dudas: ¿cómo es que la tecnología de IA, que se dice de alto umbral, ha evolucionado hacia una "guerra de cientos de modelos"?
El algoritmo Transformer cambia las reglas del juego
El surgimiento de varios grandes modelos actuales se debe al artículo "Attention Is All You Need" publicado por Google en 2017. El algoritmo Transformer propuesto en este artículo se ha convertido en la clave de esta ola de IA.
El Transformer resolvió el problema de que las redes neuronales tempranas tenían dificultades para comprender el contexto de textos largos. Utiliza codificación de posición en lugar de un diseño recurrente, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia del entrenamiento. Esto ha llevado a que la IA pase de la investigación teórica a la práctica de ingeniería, impulsando la llegada de la era de los grandes modelos.
En 2019, OpenAI desarrolló el modelo GPT-2 basado en Transformer. Posteriormente, Google lanzó Meena, que tiene un rendimiento más fuerte, principalmente al aumentar los parámetros y la potencia de cálculo. Este enfoque de "apilamiento violento" sorprendió a la comunidad académica.
Hoy en día, la velocidad de innovación en algoritmos de base se ha desacelerado, y factores de ingeniería como la ingeniería de datos y la escala de potencia computacional se han convertido en clave en la competencia de IA. Las empresas tecnológicas con cierta capacidad técnica pueden desarrollar grandes modelos.
Entrar es fácil, tener éxito es difícil
Aunque la barrera de entrada no es alta, no es fácil convertirse en una empresa líder en la era de la IA. Tomemos como ejemplo la competencia entre Falcon y Llama; aunque Falcon ocupa una posición más alta, le resulta difícil causar un impacto sustancial en Meta.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta estableció su ruta de código abierto en 2015, entendiendo profundamente la operación de comunidades. Actualmente, la serie Llama se ha convertido en un referente para los LLM de código abierto, y muchos modelos se desarrollan basándose en ella.
En términos de rendimiento, la mayoría de los LLM aún tienen una diferencia significativa con respecto a GPT-4. En la prueba AgentBench, GPT-4 lidera con una puntuación de 4.41, mientras que el segundo, Claude, solo tiene 2.77 puntos, y los modelos de código abierto suelen estar alrededor de 1 punto.
La causa de esta brecha es el equipo de científicos de élite de OpenAI y la experiencia acumulada a lo largo del tiempo. Por lo tanto, la ventaja central de los grandes modelos radica en la construcción del ecosistema o en la pura capacidad de razonamiento, y no simplemente en la acumulación de parámetros.
El desequilibrio entre costos e ingresos se convierte en un problema
Actualmente, los proveedores de grandes modelos enfrentan un grave desbalance entre costos y ingresos. Se estima que las empresas tecnológicas en todo el mundo gastarán 200 mil millones de dólares al año en infraestructura de grandes modelos, pero los ingresos alcanzan un máximo de 75 mil millones de dólares, lo que genera una brecha de al menos 125 mil millones de dólares.
Incluso gigantes como Microsoft y Adobe tienen dificultades para obtener ganancias con sus productos de IA. Por ejemplo, GitHub Copilot cuesta a Microsoft 20 dólares al mes por usuario, y los usuarios intensivos incluso hacen que Microsoft pierda 80 dólares. Adobe se ha visto obligado a establecer un sistema de puntos para limitar su uso.
Para la mayoría de los modelos grandes con una acumulación de parámetros, los principales escenarios de aplicación todavía se limitan a la conversación. A medida que la competencia se homogeneiza y aumentan los modelos de código abierto, los proveedores de modelos grandes se enfrentarán a desafíos aún mayores.
En el futuro, las verdaderas empresas de IA que destacarán quizás no se centren en el modelo en sí, sino en cómo combinar profundamente la IA con escenarios de aplicación reales para crear un verdadero valor para los usuarios. Al igual que el éxito del iPhone 4 no radica en su procesador, sino en su rica ecosistema de aplicaciones.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
3
Compartir
Comentar
0/400
CommunityLurker
· 08-04 20:44
Copiar tareas no cuesta dinero
Ver originalesResponder0
Web3ExplorerLin
· 08-04 20:25
hipótesis: este drama de IA se siente como las primeras guerras de blockchain... mismas vibras fr
Ver originalesResponder0
GateUser-4745f9ce
· 08-04 20:13
¿No es que la competencia interna ha llegado a la IA?
La competencia entre modelos de IA se intensifica, la barrera tecnológica se solta y la rentabilidad se convierte en un problema.
La competencia de IA se intensifica, ¿quién podrá salir victorioso en la "batalla de los cien modelos"?
El mes pasado, estalló una "guerra de animales" en el campo de la IA. Por un lado está el modelo Llama (lama) lanzado por Meta, y por el otro lado está el gran modelo llamado Falcon (halcón).
Llama es muy popular entre los desarrolladores debido a su naturaleza de código abierto. Después de estudiar el documento y el código fuente de Llama, la empresa japonesa NEC desarrolló rápidamente un chatbot en japonés. Por otro lado, Falcon fue desarrollado por el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos, y ha superado a Llama en la clasificación de modelos de código abierto.
Actualmente, el campo de la IA ha entrado en la etapa de "la lucha por la supremacía". Países y empresas con capacidades están trabajando para crear sus propios modelos de lenguaje a gran escala. Solo en la región del Golfo, Arabia Saudita ha adquirido más de 3000 chips H100 para entrenar en universidades nacionales.
Este fenómeno de "un país, un modelo" no puede evitar suscitar dudas: ¿cómo es que la tecnología de IA, que se dice de alto umbral, ha evolucionado hacia una "guerra de cientos de modelos"?
El algoritmo Transformer cambia las reglas del juego
El surgimiento de varios grandes modelos actuales se debe al artículo "Attention Is All You Need" publicado por Google en 2017. El algoritmo Transformer propuesto en este artículo se ha convertido en la clave de esta ola de IA.
El Transformer resolvió el problema de que las redes neuronales tempranas tenían dificultades para comprender el contexto de textos largos. Utiliza codificación de posición en lugar de un diseño recurrente, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia del entrenamiento. Esto ha llevado a que la IA pase de la investigación teórica a la práctica de ingeniería, impulsando la llegada de la era de los grandes modelos.
En 2019, OpenAI desarrolló el modelo GPT-2 basado en Transformer. Posteriormente, Google lanzó Meena, que tiene un rendimiento más fuerte, principalmente al aumentar los parámetros y la potencia de cálculo. Este enfoque de "apilamiento violento" sorprendió a la comunidad académica.
Hoy en día, la velocidad de innovación en algoritmos de base se ha desacelerado, y factores de ingeniería como la ingeniería de datos y la escala de potencia computacional se han convertido en clave en la competencia de IA. Las empresas tecnológicas con cierta capacidad técnica pueden desarrollar grandes modelos.
Entrar es fácil, tener éxito es difícil
Aunque la barrera de entrada no es alta, no es fácil convertirse en una empresa líder en la era de la IA. Tomemos como ejemplo la competencia entre Falcon y Llama; aunque Falcon ocupa una posición más alta, le resulta difícil causar un impacto sustancial en Meta.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta estableció su ruta de código abierto en 2015, entendiendo profundamente la operación de comunidades. Actualmente, la serie Llama se ha convertido en un referente para los LLM de código abierto, y muchos modelos se desarrollan basándose en ella.
En términos de rendimiento, la mayoría de los LLM aún tienen una diferencia significativa con respecto a GPT-4. En la prueba AgentBench, GPT-4 lidera con una puntuación de 4.41, mientras que el segundo, Claude, solo tiene 2.77 puntos, y los modelos de código abierto suelen estar alrededor de 1 punto.
La causa de esta brecha es el equipo de científicos de élite de OpenAI y la experiencia acumulada a lo largo del tiempo. Por lo tanto, la ventaja central de los grandes modelos radica en la construcción del ecosistema o en la pura capacidad de razonamiento, y no simplemente en la acumulación de parámetros.
El desequilibrio entre costos e ingresos se convierte en un problema
Actualmente, los proveedores de grandes modelos enfrentan un grave desbalance entre costos y ingresos. Se estima que las empresas tecnológicas en todo el mundo gastarán 200 mil millones de dólares al año en infraestructura de grandes modelos, pero los ingresos alcanzan un máximo de 75 mil millones de dólares, lo que genera una brecha de al menos 125 mil millones de dólares.
Incluso gigantes como Microsoft y Adobe tienen dificultades para obtener ganancias con sus productos de IA. Por ejemplo, GitHub Copilot cuesta a Microsoft 20 dólares al mes por usuario, y los usuarios intensivos incluso hacen que Microsoft pierda 80 dólares. Adobe se ha visto obligado a establecer un sistema de puntos para limitar su uso.
Para la mayoría de los modelos grandes con una acumulación de parámetros, los principales escenarios de aplicación todavía se limitan a la conversación. A medida que la competencia se homogeneiza y aumentan los modelos de código abierto, los proveedores de modelos grandes se enfrentarán a desafíos aún mayores.
En el futuro, las verdaderas empresas de IA que destacarán quizás no se centren en el modelo en sí, sino en cómo combinar profundamente la IA con escenarios de aplicación reales para crear un verdadero valor para los usuarios. Al igual que el éxito del iPhone 4 no radica en su procesador, sino en su rica ecosistema de aplicaciones.