San José, 23 oct (elmundo.cr) – Oracle anunció Oracle Cloud Infrastructure (OCI) Zettascale10, el supercomputador de IA más grande en la nube. OCI Zettascale10 conecta cientos de miles de GPUs NVIDIA a través de múltiples centros de datos para formar clústeres multi-gigavatio que entregan hasta un inédito máximo de 16 zettaFLOPS de rendimiento pico. OCI Zettascale10 es la base de soporte del superclúster insignia construido en colaboración con OpenAI en Abilene, Texas, como parte de Stargate. Construido sobre la arquitectura de red Oracle Acceleron RoCE de próxima generación, OCI Zettascale10 está impulsado por infraestructura de IA NVIDIA que ofrece escalabilidad revolucionaria, latencia extremadamente baja entre GPUs dentro del clúster, mejor relación desempeño-precio del sector, mayor utilización de clúster y la confiabilidad requerida para cargas de trabajo de IA a gran escala.
OCI Zettascale10 es una poderosa evolución del primer clúster de computación en la nube Zettascale, que fue presentado en septiembre de 2024. Los clústeres OCI Zettascale10 están alojados en grandes campus de centros de datos de gigavatios que están hiper-optimizados para densidad dentro de un radio de dos kilómetros, para ofrecer la mejor latencia GPU-GPU en cargas de trabajo de entrenamiento de IA a gran escala. Esta arquitectura se está implementando con OpenAI en el sitio Stargate en Abilene.
“Con OCI Zettascale10, estamos fusionando la innovadora arquitectura de red Oracle Acceleron RoCE de OCI con la infraestructura de IA NVIDIA de próxima generación para entregar capacidad de IA multi-gigavatio a una escala sin precedentes”, dijo Mahesh Thiagarajan, vicepresidente ejecutivo de Oracle Cloud Infrastructure. “Los clientes pueden construir, entrenar y poner en producción sus modelos de IA más grandes utilizando menos energía por unidad de desempeño y alcanzando alta confiabilidad. Adicionalmente, los clientes tendrán la libertad de operar en la nube distribuida de Oracle con estrictos controles de soberanía sobre datos e IA”.
“La red y tejidos del clúster OCI Zettascale10 fue desarrollada y desplegada inicialmente en el sitio insignia Stargate en Abilene, Texas—nuestro superclúster conjunto con Oracle”, dijo Peter Hoeschele, vicepresidente de Infraestructura y Cómputo Industrial, OpenAI. “El diseño personalizado y altamente escalable de RoCE maximiza el rendimiento total del tejido a escala de gigavatios, mientras concentra la mayor parte de la energía en cómputo. Estamos entusiasmados de continuar escalando Abilene y el programa global Stargate juntos”.
OCI planea ofrecer implementaciones multi-gigavatio de OCI Zettascale10 a sus clientes. Inicialmente, los clústeres OCI Zettascale10 estarán destinados a implementaciones de hasta 800,000 GPUs NVIDIA, entregando rendimiento predecible y una gran eficiencia de costos, con alto ancho de banda GPU‑a‑GPU habilitado por la red RoCEv2 de ultra baja latencia de Oracle Acceleron.
“Oracle y NVIDIA están combinando la nube distribuida de OCI y nuestra infraestructura de IA full stack para ofrecer IA a una escala extraordinaria”, dijo Ian Buck, vicepresidente de Hyperscale en NVIDIA. “Con la infraestructura de IA full stack de NVIDIA, OCI Zettascale10 proporciona el tejido de cómputo necesario para avanzar en la investigación de IA de vanguardia y ayudar a las organizaciones a pasar de la experimentación a la IA industrializada”.
Oracle Acceleron RoCE networking proporciona escala, confiabilidad y eficiencia para IA en OCI Zettascale10
La arquitectura de red Oracle Acceleron RoCE es una innovación clave para que los clientes puedan construir, entrenar e inferir cargas de trabajo de IA en la nube, aprovechando al máximo la potencia y capacidades de OCI Zettascale10. Utiliza la capacidad de switching integrada en las NICs (tarjetas de interfaz de red) modernas para GPU, permitiendo que se conecten a múltiples switches simultáneamente, cada uno en un plano de red separado y aislado. Este enfoque aumenta drásticamente la escala y confiabilidad general de la red al transferir el tráfico hacia otros planos de red cuando uno presenta problemas, evitando costosos bloqueos y reinicios. Las características clave de Oracle Acceleron RoCE networking que ayudan a los clientes con sus cargas de trabajo críticas de IA incluyen:
- Tejido amplio, poco profundo y resiliente: Permite a los clientes implementar clústeres de IA más grandes rápidamente y a un menor costo total utilizando la NIC de GPU como mini-switch y conectando a múltiples planos física y lógicamente aislados. Esto aumenta la escala al tiempo que reduce niveles de red, costos y consumo energético.
- Mayor confiabilidad: Ayuda a los clientes a mantener la estabilidad de los trabajos de IA eliminando el intercambio de datos entre planos. Esto desplaza el tráfico lejos de planos inestables o congestionados, manteniendo los trabajos de entrenamiento en marcha y evitando costosos reinicios desde puntos de control.
- Desempeño consistente: Proporciona a los clientes una latencia GPU-a-GPU más uniforme, eliminando un nivel en comparación con los diseños tradicionales de tres niveles, mejorando la predictibilidad para entrenamientos de IA a gran escala e inferencia.
- Óptica eficiente en energía: Da soporte a las cargas de los clientes con óptica lineal enchufable (LPO) y óptica de receptor lineal (LRO) para reducir costos de red y enfriamiento sin sacrificar el rendimiento de 400G/800G. Esto permite a los clientes destinar mayor parte de su presupuesto energético al cómputo.
- Flexibilidad operativa: Permite a los clientes reducir el tiempo fuera de servicio y acelerar la implementación de nuevas funciones mediante mantenimiento a nivel de plano y actualizaciones independientes del sistema operativo de red.
- OCI ya está tomando pedidos para OCI Zettascale10, que estará disponible en la segunda mitad del próximo año calendario, con hasta 800,000 plataformas GPU de infraestructura de IA NVIDIA.
Oracle presenta OCI Zettascale10, el clúster de infraestructura en la nube de nueva generación para IA
San José, 23 oct (elmundo.cr) – Oracle anunció Oracle Cloud Infrastructure (OCI) Zettascale10, el supercomputador de IA más grande en la nube. OCI Zettascale10 conecta cientos de miles de GPUs NVIDIA a través de múltiples centros de datos para formar clústeres multi-gigavatio que entregan hasta un inédito máximo de 16 zettaFLOPS de rendimiento pico. OCI Zettascale10 es
Xavier Condega
El Mundo CR
San José, 23 oct (elmundo.cr) – Oracle anunció Oracle Cloud Infrastructure (OCI) Zettascale10, el supercomputador de IA más grande en la nube. OCI Zettascale10 conecta cientos de miles de GPUs NVIDIA a través de múltiples centros de datos para formar clústeres multi-gigavatio que entregan hasta un inédito máximo de 16 zettaFLOPS de rendimiento pico. OCI Zettascale10 es la base de soporte del superclúster insignia construido en colaboración con OpenAI en Abilene, Texas, como parte de Stargate. Construido sobre la arquitectura de red Oracle Acceleron RoCE de próxima generación, OCI Zettascale10 está impulsado por infraestructura de IA NVIDIA que ofrece escalabilidad revolucionaria, latencia extremadamente baja entre GPUs dentro del clúster, mejor relación desempeño-precio del sector, mayor utilización de clúster y la confiabilidad requerida para cargas de trabajo de IA a gran escala.
OCI Zettascale10 es una poderosa evolución del primer clúster de computación en la nube Zettascale, que fue presentado en septiembre de 2024. Los clústeres OCI Zettascale10 están alojados en grandes campus de centros de datos de gigavatios que están hiper-optimizados para densidad dentro de un radio de dos kilómetros, para ofrecer la mejor latencia GPU-GPU en cargas de trabajo de entrenamiento de IA a gran escala. Esta arquitectura se está implementando con OpenAI en el sitio Stargate en Abilene.
“Con OCI Zettascale10, estamos fusionando la innovadora arquitectura de red Oracle Acceleron RoCE de OCI con la infraestructura de IA NVIDIA de próxima generación para entregar capacidad de IA multi-gigavatio a una escala sin precedentes”, dijo Mahesh Thiagarajan, vicepresidente ejecutivo de Oracle Cloud Infrastructure. “Los clientes pueden construir, entrenar y poner en producción sus modelos de IA más grandes utilizando menos energía por unidad de desempeño y alcanzando alta confiabilidad. Adicionalmente, los clientes tendrán la libertad de operar en la nube distribuida de Oracle con estrictos controles de soberanía sobre datos e IA”.
“La red y tejidos del clúster OCI Zettascale10 fue desarrollada y desplegada inicialmente en el sitio insignia Stargate en Abilene, Texas—nuestro superclúster conjunto con Oracle”, dijo Peter Hoeschele, vicepresidente de Infraestructura y Cómputo Industrial, OpenAI. “El diseño personalizado y altamente escalable de RoCE maximiza el rendimiento total del tejido a escala de gigavatios, mientras concentra la mayor parte de la energía en cómputo. Estamos entusiasmados de continuar escalando Abilene y el programa global Stargate juntos”.
OCI planea ofrecer implementaciones multi-gigavatio de OCI Zettascale10 a sus clientes. Inicialmente, los clústeres OCI Zettascale10 estarán destinados a implementaciones de hasta 800,000 GPUs NVIDIA, entregando rendimiento predecible y una gran eficiencia de costos, con alto ancho de banda GPU‑a‑GPU habilitado por la red RoCEv2 de ultra baja latencia de Oracle Acceleron.
“Oracle y NVIDIA están combinando la nube distribuida de OCI y nuestra infraestructura de IA full stack para ofrecer IA a una escala extraordinaria”, dijo Ian Buck, vicepresidente de Hyperscale en NVIDIA. “Con la infraestructura de IA full stack de NVIDIA, OCI Zettascale10 proporciona el tejido de cómputo necesario para avanzar en la investigación de IA de vanguardia y ayudar a las organizaciones a pasar de la experimentación a la IA industrializada”.
Oracle Acceleron RoCE networking proporciona escala, confiabilidad y eficiencia para IA en OCI Zettascale10
La arquitectura de red Oracle Acceleron RoCE es una innovación clave para que los clientes puedan construir, entrenar e inferir cargas de trabajo de IA en la nube, aprovechando al máximo la potencia y capacidades de OCI Zettascale10. Utiliza la capacidad de switching integrada en las NICs (tarjetas de interfaz de red) modernas para GPU, permitiendo que se conecten a múltiples switches simultáneamente, cada uno en un plano de red separado y aislado. Este enfoque aumenta drásticamente la escala y confiabilidad general de la red al transferir el tráfico hacia otros planos de red cuando uno presenta problemas, evitando costosos bloqueos y reinicios. Las características clave de Oracle Acceleron RoCE networking que ayudan a los clientes con sus cargas de trabajo críticas de IA incluyen:
- Tejido amplio, poco profundo y resiliente: Permite a los clientes implementar clústeres de IA más grandes rápidamente y a un menor costo total utilizando la NIC de GPU como mini-switch y conectando a múltiples planos física y lógicamente aislados. Esto aumenta la escala al tiempo que reduce niveles de red, costos y consumo energético.
- Mayor confiabilidad: Ayuda a los clientes a mantener la estabilidad de los trabajos de IA eliminando el intercambio de datos entre planos. Esto desplaza el tráfico lejos de planos inestables o congestionados, manteniendo los trabajos de entrenamiento en marcha y evitando costosos reinicios desde puntos de control.
- Desempeño consistente: Proporciona a los clientes una latencia GPU-a-GPU más uniforme, eliminando un nivel en comparación con los diseños tradicionales de tres niveles, mejorando la predictibilidad para entrenamientos de IA a gran escala e inferencia.
- Óptica eficiente en energía: Da soporte a las cargas de los clientes con óptica lineal enchufable (LPO) y óptica de receptor lineal (LRO) para reducir costos de red y enfriamiento sin sacrificar el rendimiento de 400G/800G. Esto permite a los clientes destinar mayor parte de su presupuesto energético al cómputo.
- Flexibilidad operativa: Permite a los clientes reducir el tiempo fuera de servicio y acelerar la implementación de nuevas funciones mediante mantenimiento a nivel de plano y actualizaciones independientes del sistema operativo de red.
- OCI ya está tomando pedidos para OCI Zettascale10, que estará disponible en la segunda mitad del próximo año calendario, con hasta 800,000 plataformas GPU de infraestructura de IA NVIDIA.
Artículos de tecnología
