Google anuncia supercomputadoras A3 con GPU NVIDIA H100, diseñadas específicamente para IA

La implementación de modelos de inteligencia artificial (IA) y aprendizaje automático (ML) de última generación requiere grandes cantidades de computación, tanto para entrenar los modelos subyacentes como para servirlos una vez que estén entrenados. Dadas las demandas de estas cargas de trabajo, un enfoque único no es suficiente: se necesita una infraestructura diseñada específicamente para la IA.

Junto con nuestros socios, ofrecemos una amplia gama de opciones informáticas para casos de uso de ML, como modelos de lenguaje grande (LLM), IA generativa y modelos de difusión. Recientemente, anunciamos las máquinas virtuales G2, convirtiéndonos en la primera nube en ofrecer las nuevas GPU NVIDIA L4 Tensor Core para atender cargas de trabajo de IA generativa. Hoy, estamos ampliando esa cartera con el lanzamiento preliminar privado de la supercomputadora GPU A3 de próxima generación. Google Cloud ahora ofrece una gama completa de opciones de GPU para entrenamiento e inferencia de modelos de ML.

Las supercomputadoras Google Compute Engine A3 están diseñadas específicamente para entrenar y dar servicio a los modelos de IA más exigentes que impulsan la IA generativa actual y la innovación de grandes modelos de lenguaje. Nuestras máquinas virtuales A3 combinan las GPU NVIDIA H100 Tensor Core y los principales avances en redes de Google para atender a clientes de todos los tamaños: A3 es la primera instancia de GPU que utiliza nuestras IPU de 200 Gbps de diseño personalizado, con transferencias de datos de GPU a GPU sin pasar por el host de la CPU y fluyendo a través de interfaces separadas de otras redes de VM y tráfico de datos. Esto permite hasta 10 veces más ancho de banda de red en comparación con nuestras máquinas virtuales A2, con latencias de cola bajas y alta estabilidad del ancho de banda. Nuestro tejido de red de centro de datos inteligente Júpiter, único en la industria, se escala a decenas de miles de GPU altamente interconectadas y permite enlaces ópticos reconfigurables de ancho de banda completo que pueden ajustar la topología según demanda. Para casi todas las estructuras de carga de trabajo, logramos un ancho de banda de carga de trabajo que es indistinguible de estructuras de red sin bloqueo disponibles en el mercado, más costosas, lo que resulta en un TCO más bajo. La escala de la supercomputadora A3 proporciona hasta 26 exaFlops de rendimiento de IA, lo que mejora considerablemente el tiempo y los costos para entrenar grandes modelos de ML. A medida que las empresas pasan de la capacitación al servicio de sus modelos de aprendizaje automático, las máquinas virtuales A3 también son una buena opción para las cargas de trabajo de inferencia, ya que obtienen un aumento del rendimiento de inferencia de hasta 30 veces en comparación con nuestras máquinas virtuales A2 que funcionan con la GPU NVIDIA A100 Tensor Core.
Diseñadas específicamente para el rendimiento y la escala Las máquinas virtuales con GPU A3 se diseñaron específicamente para brindar la capacitación de mayor rendimiento para las cargas de trabajo de aprendizaje automático actuales, completas con CPU moderna, memoria de host mejorada, GPU NVIDIA de próxima generación e importantes actualizaciones de red. Estas son las características clave del A3: 8 GPU H100 que utilizan la arquitectura Hopper de NVIDIA, lo que ofrece un rendimiento informático 3 veces mayor Ancho de banda biseccional de 3,6 TB/s entre las 8 GPU del A3 a través de NVIDIA NVSwitch y NVLink 4.0 Procesadores escalables Intel Xeon de cuarta generación de próxima generación 2 TB de memoria host a través de DIMM DDR5 de 4800 MHz Ancho de banda de red 10 veces mayor gracias a nuestras IPU habilitadas para hardware, pila de comunicación GPU entre servidores especializada y optimizaciones NCCL Las máquinas virtuales con GPU A3 son un paso adelante para los clientes que desarrollan los modelos de aprendizaje automático más avanzados. Al acelerar considerablemente el entrenamiento y la inferencia de modelos de ML, las máquinas virtuales A3 permiten a las empresas entrenar modelos de ML más complejos a gran velocidad, creando una oportunidad para que nuestro cliente cree modelos de lenguaje grandes (LLM), IA generativa y modelos de difusión para ayudar optimizar las operaciones y mantenerse por delante de la competencia.
Este anuncio se basa en nuestra asociación con NVIDIA para ofrecer una gama completa de opciones de GPU para entrenamiento e inferencia de modelos ML a nuestros clientes.
«Las máquinas virtuales A3 de Google Cloud, impulsadas por las GPU NVIDIA H100 de próxima generación, acelerarán el entrenamiento y el servicio de aplicaciones de IA generativa», afirmó Ian Buck, vicepresidente de computación de hiperescala y alto rendimiento de NVIDIA. «Tras las instancias G2 lanzadas recientemente por Google Cloud, estamos orgullosos de continuar nuestro trabajo con Google Cloud para ayudar a transformar empresas de todo el mundo con una infraestructura de IA diseñada específicamente».
Infraestructura de IA totalmente administrada y optimizada para rendimiento y costo Para los clientes que buscan desarrollar modelos de ML complejos sin mantenimiento, pueden implementar máquinas virtuales A3 en Vertex AI, una plataforma de extremo a extremo para crear modelos de ML en una infraestructura totalmente administrada diseñada específicamente para brindar servicio de baja latencia y alto rendimiento. capacitación. Hoy, en Google I/O 2023, nos complace aprovechar estas ofertas abriendo el soporte de IA generativa en Vertex AI a más clientes e introduciendo nuevas funciones y modelos básicos.
Para los clientes que buscan diseñar su propia pila de software personalizada, también pueden implementar máquinas virtuales A3 en Google Kubernetes Engine (GKE) y Compute Engine, para que puedan entrenar y ofrecer los últimos modelos básicos, mientras disfrutan de soporte para escalado automático, orquestación de cargas de trabajo y actualizaciones automáticas.
«Las instancias de VM A3 de Google Cloud nos brindan la potencia computacional y la escala para nuestras cargas de trabajo de inferencia y capacitación más exigentes. Esperamos aprovechar su experiencia en el espacio de la IA y su liderazgo en infraestructura a gran escala para ofrecer una plataforma sólida. para nuestras cargas de trabajo de ML». -Noam Shazeer, director ejecutivo de Character AI.
En Google Cloud, la IA está en nuestro ADN. Hemos aplicado décadas de experiencia ejecutando computación a escala global para IA. Diseñamos esa infraestructura para escalarla y optimizarla para ejecutar una amplia variedad de cargas de trabajo de IA y ahora la ponemos a su disposición.
Fuente: Google Tags: Tecnología, Google, Google Compute Engine A3, IA, NVIDIA H100