Hon Hai Institute Research lanza un modelo extenso de lenguaje de chino tradicional con capacidades de razonamiento

Hon Hai Institute Research lanza un modelo extenso de lenguaje de chino tradicional con capacidades de razonamiento

PR Newswire

La primera versión del Centro de Investigación de IA tiene un buen desempeño en matemáticas y razonamiento

TAIPÉI, 11 de marzo de 2025 /PRNewswire/ — Hon Hai Research Institute anunció hoy el lanzamiento del primer modelo extenso de lenguaje (LLM, por sus siglas en inglés) de chino tradicional, lo que marca otro hito en el desarrollo de la tecnología de IA de Taiwán con un método de entrenamiento modelo más eficiente y de menor costo que se completa en tan solo cuatro semanas.

El instituto, que cuenta con el respaldo de Hon Hai Technology Group (“Foxconn”) (TWSE:2317), el mayor fabricante de productos electrónicos del mundo y proveedor líder de soluciones tecnológicas, dijo que el LLM, cuyo nombre en código es FoxBrain, será de código abierto y se compartirá públicamente en el futuro. Se diseñó originalmente para aplicaciones que se utilizan en los sistemas internos del Grupo para cubrir funciones como análisis de datos, soporte en la toma de decisiones, colaboración en documentos, matemáticas, razonamiento y resolución de problemas y generación de código.

FoxBrain no solo demuestra poderosas capacidades de comprensión y razonamiento, sino que también está optimizado para el estilo de lenguaje de los usuarios taiwaneses, ya que muestra un excelente desempeño en pruebas de razonamiento matemático y lógico.

“En los últimos meses, la profundización de las capacidades de razonamiento y el uso eficiente de las unidades de procesamiento gráfico (GPU, por sus siglas en inglés) se han convertido gradualmente en el desarrollo principal en el campo de la IA. “Nuestro modelo FoxBrain adoptó una estrategia de entrenamiento muy eficiente, por lo que se centró en optimizar el proceso de entrenamiento en lugar de acumular potencia informática a ciegas”, señaló el Dr. Yung-Hui Li, director del Centro de Investigación de Inteligencia Artificial del Instituto de Investigación Hon Hai. “Al usar métodos de entrenamiento cuidadosamente diseñados y optimizar los recursos, hemos construido con éxito un modelo de IA local con poderosas capacidades de razonamiento”.

El proceso de entrenamiento de FoxBrain fue impulsado por 120 NVIDIA H100 GPU, escaladas con redes NVIDIA Quantum-2 InfiniBand y finalizó en aproximadamente cuatro semanas. En comparación con los modelos inferenciales lanzados recientemente al mercado, el método de entrenamiento de modelos más eficiente y de menor costo establece un nuevo hito para el desarrollo de la tecnología de IA de Taiwán.

FoxBrain se basa en la arquitectura Meta Llama 3.1 con parámetros 70B. En la mayoría de las categorías entre el conjunto de datos de prueba TMMLU+, supera a Llama-3-Taiwan-70B de la misma escala, y sobresale particularmente en matemáticas y razonamiento lógico (para consultar la prueba comparativa TMMLU+ de FoxBrain, consulte la figura 1). A continuación se encuentran las especificaciones técnicas y estrategias de entrenamiento para FoxBrain:

  • Se establecieron métodos de aumento de datos y evaluación de calidad en 24 categorías de temas a través de tecnología patentada, lo que generó 98 mil millones de tokens de datos de preentrenamiento de alta calidad para el chino tradicional.
  • Longitud de la ventana de contexto: 128 K tokens
  • Se utilizaron 120 NVIDIA H100 GPU para el entrenamiento, con un costo informático total de 2.688 días de GPU
  • Se empleó una arquitectura de entrenamiento paralelo de múltiples nodos para garantizar un alto rendimiento y estabilidad.
  • Se utilizó una técnica única de reflexión de razonamiento adaptativo para entrenar al modelo en razonamiento autónomo.

Fig. 1: Resultados de la prueba comparativa TMMLU+ de FoxBrain, Meta-Llama-3.1-70B y Taiwan-Llama-70B (PRNewsfoto/Hon Hai Research Institute)

En los resultados de las pruebas, FoxBrain mostró mejoras integrales en matemáticas en comparación con el modelo base Meta Llama 3.1. Logró un progreso significativo en las pruebas matemáticas en comparación con Taiwan Llama, actualmente el mejor modelo extenso de chino tradicional, y superó a los modelos actuales de Meta de la misma clase en capacidad de razonamiento matemático. Si bien todavía existe una ligera brecha con el modelo de destilación de DeepSeek, su rendimiento ya está muy cerca de alcanzar los estándares líderes mundiales.

El desarrollo de FoxBrain (desde la recopilación, limpieza y aumento de datos hasta el preentrenamiento continuo, el ajuste fino supervisado, RLAIF y la reflexión de razonamiento adaptativo) se logró paso a paso mediante una investigación independiente que, finalmente, logró beneficios que se acercan a los modelos de IA de clase mundial a pesar de los recursos informáticos limitados. Esta gran investigación sobre modelos lingüísticos demuestra que el talento tecnológico de Taiwán puede competir con sus homólogos internacionales en el campo de los modelos de IA.

Aunque FoxBrain se diseñó originalmente para aplicaciones grupales internas, en el futuro el Grupo continuará colaborando con socios tecnológicos para expandir las aplicaciones de FoxBrain, compartir su información de código abierto y promover la IA en la fabricación, gestión de la cadena de suministro y toma de decisiones inteligente.

Durante el entrenamiento del modelo, NVIDIA brindó soporte a través de la supercomputadora Taipei-1 y la consultoría técnica, lo que permitió a Hon Hai Research Institute completar con éxito el entrenamiento previo del modelo con NVIDIA NeMo. FoxBrain también se convertirá en un motor importante que impulsará la actualización de las tres principales plataformas de Foxconn: Smart Manufacturing. Smart EV. Smart City.

Está previsto que los resultados de FoxBrain se compartan por primera vez en una conferencia importante durante la sesión de charlas de NVIDIA GTC 2025 “From Open Source to Frontier AI: Build, Customize, and Extend Foundation Models” (Del código abierto a la IA de vanguardia: crear, personalizar y ampliar modelos básicos), el 20 de marzo.

Acerca del Hon Hai Research Institute

El instituto cuenta con cinco centros de investigación. Cada centro cuenta con un promedio de 40 profesionales en investigación y desarrollo de alta tecnología centrados en la investigación y el desarrollo de nuevas tecnologías, el fortalecimiento de la línea de innovación tecnológica y de productos de Foxconn, los esfuerzos para apoyar la transformación del Grupo de “fuerza bruta” a “cerebro” y la mejora de la competitividad de la estrategia “3+3” de Foxconn.

Acerca de Foxconn aquí.

Foto – https://mma.prnewswire.com/media/2637734/Fig_1_TMMLU__benchmark_results_FoxBrain_Meta_Llama_3_1_70B_Taiwan_Llama_70B.jpg

Cision View original content to download multimedia:https://www.prnewswire.com/mx/comunicados-de-prensa/hon-hai-institute-research-lanza-un-modelo-extenso-de-lenguaje-de-chino-tradicional-con-capacidades-de-razonamiento-302398230.html

FUENTE Hon Hai Research Institute

contador

Publicidad