Envío gratuito a partir de MXN$1,600.
México

Arquitecturas de cableado eficientes para infraestructuras de datos de IA escalables

Vincent30 Dic. 2024Lectura de 1 minutos

Con el rápido desarrollo y la aplicación de la tecnología de Inteligencia Artificial (IA), la arquitectura de los centros de datos evoluciona continuamente para adaptarse a esta tendencia. Debido a los altos requisitos de tiempo real de las aplicaciones de IA, la latencia en la transmisión de datos debe minimizarse para garantizar la capacidad de respuesta del sistema. Además, con el aumento constante del volumen de datos, la demanda de ancho de banda también se incrementa. Este artículo analiza las consideraciones de cableado en los centros de datos de IA, centrándose en los desafíos del cableado y las mejores prácticas necesarias para optimizar el rendimiento.
Consideraciones de cableado en centros de datos de IA
Aumento imparable de la demanda energética Existe una demanda de electricidad en constante aumento en las regiones donde se ubican los centros de datos de IA. Tomando como ejemplo la República de Irlanda, los centros de datos consumen actualmente más del 20% de la electricidad del país, un incremento significativo respecto al 5% en 2015. En consecuencia, por primera vez, ya no hay garantía de un suministro eléctrico confiable para mantener la operación de los centros de datos.
El aumento en la demanda energética puede requerir más cables, racks y tomas de corriente para soportar la conexión de nuevos equipos y la expansión del centro de datos. Para equilibrar la mejora de la sostenibilidad y la ampliación de la capacidad, los centros de datos de IA requieren el respaldo de sus socios tecnológicos en infraestructura de red.
Baja latencia con alta conectividad El entrenamiento y la operación de modelos de IA requieren una gran cantidad de potencia de procesamiento, a menudo más allá de lo que una sola máquina puede manejar. Como resultado, gestionar estos grandes modelos de IA requiere una vasta interconexión de GPUs distribuidas en múltiples servidores y racks. Esto plantea desafíos únicos para la infraestructura de red necesaria para mantener el flujo de datos, especialmente porque los servidores GPU dentro de los clusters de IA deberían estar idealmente próximos entre sí debido a la alta sensibilidad de la IA y el aprendizaje automático a la latencia.
La fibra óptica tipo ribbon permite gestionar trayectorias estrechas y congestionadas, así como la complejidad adicional del cableado que introducen los clusters de IA. Este diseño innovador permite duplicar la densidad de fibra en comparación con fibras tradicionales, permitiendo la instalación de hasta seis cables de fibra óptica de 3.456 núcleos en un solo conducto de cuatro pulgadas.
Transceptores vs. AOCs Los Cables Ópticos Activos (AOCs) se utilizan comúnmente en clusters de IA, ML y computación de alto rendimiento (HPC). Estos cables integran transmisores y receptores ópticos, proporcionando una solución todo en uno. No obstante, los AOCs carecen de la flexibilidad que ofrecen los transceptores y cables de fibra separados, limitando su adecuación para futuras actualizaciones y aumentando el riesgo de fallos.
Una planificación cuidadosa del cableado de clusters de IA puede generar ahorro de costos, reducción del consumo energético e instalaciones más rápidas, permitiendo a las organizaciones aprovechar al máximo las ventajas de la IA.
Arquitectura, conectividad y cableado de redes de IA
Arquitectura de red de IA En redes tradicionales de 3 niveles, se utilizan switches core, de agregación y edge para conectar diferentes servidores dentro de los centros de datos, con tráfico entre servidores fluyendo en dirección Norte-Sur a través de dispositivos activos. Sin embargo, debido a las altas demandas computacionales e interdependencias generadas por la IA y el aprendizaje automático, muchas de estas redes ahora se implementan utilizando una red spine-leaf de 2 niveles, donde los servidores se comunican en dirección Este-Oeste, ya que las redes de producción y entrenamiento requieren una latencia ultrabaja.
Los servidores tienen interfaces en la parte trasera, como se muestra en la Figura 1. Las más destacables son los puertos de computación, cada uno funcionando a 800G, empleando conexiones dobles de puerto MPO, cada una operando a 400G. Cada servidor cuenta con cuatro conjuntos de puertos dobles, sumando 8 MPO y acomodando hasta 64 fibras para tareas computacionales. Dependiendo de la configuración del dispositivo, se asigna 1 o 2 puertos para almacenamiento y la red In-Band, requiriendo de 10 a 12 interfaces MPO y potencialmente hasta 96 fibras por sistema. Además, existe una interfaz de cobre para la gestión Out-of-Band, un factor crucial a considerar durante la planificación de la infraestructura de red.
Un solo rack puede alojar hasta cuatro servidores DGX H100. Multiplicando la demanda por servidor por cuatro, las necesidades totales de cableado por rack pueden alcanzar hasta 384 fibras, como se ilustra en la Figura 2. Esto representa un aumento significativo en comparación con las configuraciones convencionales de servidores front-end, que comúnmente utilizan conexiones duplex de 50G o 100G hacia los servidores, con cuatro puertos MPO de uplink hacia la siguiente capa de switches.
Los clusters pueden agrupar hasta 8 racks DGX H100 en una fila, conocidos como una "Unidad Escalable", diseñada para escalar hasta cuatro de estas filas y formar un pod de supercomputadora extenso. Este enfoque multiplica la demanda por rack por 8, pudiendo requerir hasta 384 puertos MPO por rack, lo que se traduce en más de 3.000 fibras.
Todas estas conexiones se consolidan en los racks de switching para establecer las redes Compute, Storage, In-Band y Out-of-Band mencionadas anteriormente. Estos racks de switch pueden ubicarse en una disposición central de la fila, como se muestra en la Figura 3, al final de la fila o en una ubicación más centralizada. El espaciamiento total de los racks puede variar según lo que sea óptimo para el centro de datos en particular. No obstante, dada la abundancia de puertos y fibras en un número limitado de racks, queda claro por qué la proporción de conexiones ópticas para clusters de IA está destinada a aumentar rápidamente en los próximos cinco años.
Conexiones directas de cableado ¿Qué opciones de cableado están disponibles para facilitar un gran número de conexiones? Una posibilidad es establecer enlaces directos desde los sistemas de IA hacia la infraestructura de switches, utilizando cables ópticos activos (AOCs) o cables MPO separados, como se ilustra en la Figura 4. Aunque este método es el más directo, genera una cantidad significativa de cableado dentro de las bandejas y racks.
Cableado estructurado Otro enfoque es el cableado estructurado, que muestra ventajas en clusters de IA. Este método sustituye la multitud de conexiones punto a punto en las bandejas superiores por paneles de parcheo en ambos extremos, junto con cables troncal MPO de mayor conteo de fibras que conectan los racks.
El cableado estructurado también permite cables más pequeños dentro del rack en la parte frontal de los paneles de parcheo, como se muestra en la Figura 5. Este enfoque ayuda a reducir la congestión y aumentar la densidad de cables dentro del rack. Además, proporciona flexibilidad a los instaladores mediante características como etiquetado de paneles, agrupación simplificada de cables y conectores codificados por colores. Estos elementos facilitan la identificación de cables, agilizan los procesos de resolución de problemas y contribuyen a una mejor gestión del cableado dentro de la instalación.
Además del método de cableado, se debe considerar cuidadosamente qué transceptores ópticos y cables de fibra óptica utilizar en los clusters de IA para minimizar costos. Debido a las cortas distancias entre clusters de IA, los costos ópticos estarán determinados por los transceptores. Una ventaja de usar transceptores ópticos paralelos es que no requieren multiplexores ni demultiplexores ópticos usados en la multiplexación por longitud de onda. Esto resulta en menores costos y menor consumo energético para los transceptores que utilizan fibra óptica paralela. Además, la hoja de ruta tecnológica de los principales proveedores de switches y transceptores ofrece un camino de migración claro y directo para desplegar componentes ópticos paralelos, facilitando las futuras transiciones de velocidad.
Conclusión
Tu centro de datos de IA requerirá redes spine-and-leaf ultraeficientes y de latencia ultrabaja en dirección Este-Oeste para manejar el tráfico diario de producción mientras se soporta el entrenamiento paralelo de ML. FS proporciona todo el equipo necesario para construir un centro de datos de IA, incluidos cables de fibra óptica, productos de gestión de cables de alta densidad (paneles de fibra, cassettes, gabinetes) y soluciones de gestión de cableado. Instalar la infraestructura de red correcta permitirá que tu centro de datos logre mayores beneficios económicos desde el inicio, retenga y atraiga más clientes, y haga que tu instalación prospere con flexibilidad.
¿Estás listo para mejorar tu experiencia de red? Aprovecha la oportunidad: transforma tu red con FS hoy.