Intel aborda la brecha de la IA generativa con Gaudi 3

En ‘Intel Vision‘, Intel presentó el acelerador de Inteligencia Artificial (IA) Intel Gaudi 3 AI, que ofrece cuatro veces más capacidad de cálculo de IA para BF16, 1,5 veces más ancho de banda de memoria y dos veces más ancho de banda de red para un escalado masivo del sistema en comparación con su predecesor.

Eso supone un salto significativo en el rendimiento y la productividad para la formación y la inferencia de IA en los populares modelos de grandes lenguajes (LLM) y modelos multimodales.

Basándose en el rendimiento y la eficiencia demostrados del acelerador Intel Gaudi 2 AI, la única alternativa MLPerf para LLM del mercado, Intel les ofrece a los clientes la posibilidad de elegir entre un software abierto basado en la comunidad y una red Ethernet estándar del sector para escalar sus sistemas de forma más flexible.

“A pesar de su constante evolución, el mercado de la IA atraviesa una brecha significativa en la oferta actual. Los comentarios de nuestros clientes y del mercado en general subrayan el deseo de disponer de más opciones. Las empresas sopesan consideraciones como la disponibilidad, la escalabilidad, el rendimiento, el coste y la eficiencia energética. Intel Gaudi 3 destaca como la alternativa GenAI que presenta una combinación convincente de rendimiento de precio, escalabilidad del sistema y ventaja de tiempo-valor”, afirmó Justin Hotard, vicepresidente ejecutivo de Intel y director general del Data Center & AI Group.

El acelerador Intel Gaudi 3, diseñado para la computación eficiente de IA a gran escala, se fabrica en un proceso de 5 nanómetros (nm) y ofrece avances significativos con respecto a su predecesor.

Está diseñado para permitir la activación de todos los motores en paralelo con el motor de multiplicación de matrices (MME), los núcleos procesadores de tensor (TPC) y las tarjetas de interfaz de red (NIC), lo que permite la aceleración necesaria para un cómputo de aprendizaje profundo rápido, eficiente y a escala.

Entre las características clave se incluyen:

Motor de cómputo dedicado a la IA

El acelerador Intel Gaudi 3 fue diseñado especialmente para cómputo GenAI de alto desempeño y alta eficiencia.

Cada acelerador cuenta con un motor informático heterogéneo compuesto por 64 TPC personalizadas y programables para IA y ocho MME.

Cada MME de Intel Gaudi 3 es capaz de realizar la impresionante cantidad de 64.000 operaciones paralelas, lo que permite un alto grado de eficiencia computacional, haciéndolos expertos en el manejo de operaciones matriciales complejas, un tipo de computación que es fundamental para los algoritmos de aprendizaje profundo.

Este diseño único acelera la velocidad y la eficiencia de las operaciones paralelas de IA y admite múltiples tipos de datos, incluidos FP8 y BF16.

Aumento de memoria para LLM requisitos de capacidad

Los 128 gigabytes (GB) de capacidad de memoria HBMe2, los 3,7 terabytes (TB) de ancho de banda de memoria y los 96 megabytes (MB) de memoria estática de acceso aleatorio (SRAM) incorporada proporcionan memoria de sobra para procesar grandes conjuntos de datos de GenAI, lo que resulta especialmente útil para servir grandes modelos lingüísticos y multimodales

Escala eficiente del sistema para GenAI empresarial

Cada acelerador Intel Gaudi 3 integra 24 puertos Ethernet de 200 gigabits (Gb), lo que proporciona una red flexible y de estándar abierto.

Permiten un escalado eficiente para admitir grandes clústeres informáticos y eliminan la dependencia de proveedores de tejidos de red propietarios.

El acelerador Intel Gaudi 3 está diseñado para ampliarse y reducirse eficientemente desde un solo nodo hasta miles, a fin de satisfacer los requisitos expansivos de los modelos GenAI.

Software abierto del sector para la productividad de los desarrolladores

El software Intel Gaudi integra el marco PyTorch y proporciona modelos optimizados basados en la comunidad Hugging Face, el marco de IA más común para los desarrolladores de GenAI en la actualidad.

Eso les permite a los desarrolladores de GenAI operar a un alto nivel de abstracción para facilitar el uso y la productividad, así como la portabilidad de modelos entre distintos tipos de hardware.

Gaudi 3 PCIe

La tarjeta complementaria Gaudi 3 Peripheral Component Interconnect Express (PCIe) es una novedad en la línea de productos.

Este nuevo factor de forma, diseñado para ofrecer una alta eficiencia con un menor consumo de energía, es ideal para cargas de trabajo como el ajuste fino, la inferencia y la generación aumentada por recuperación (RAG).

La tarjeta está equipada como factor de forma de altura completa a 600 vatios, con una capacidad de memoria de 128 GB y un ancho de banda de 3,7 TB por segundo.

Por otra parte, el acelerador Intel Gaudi 3 ofrecerá importantes mejoras de rendimiento para tareas de formación e inferencia en los principales modelos de GenAI.

En concreto, se prevé que el acelerador Gaudi 3 ofrezca, de media, en comparación con Nvidia H100:

50 por ciento más de velocidad de entrenamiento en los modelos Llama2 de 7B y 13B parámetros, y GPT-3 de 175B parámetros.

Rendimiento de inferencia un 50 por ciento más rápido y eficiencia energética de inferencia un 40 por ciento mayor en los modelos de parámetros Llama 7B y 70B, y Falcon 180B. Una ventaja de rendimiento de inferencia aún mayor en secuencias de entrada y salida más largas.