Introducción a la gestión de congestión de RoCEv2
17 Jun. 2025Lectura de 1 minutos
En la era de la inteligencia artificial, el aprendizaje automático y la computación de alto rendimiento (HPC), los centros de datos enfrentan una creciente presión para mover enormes volúmenes de datos con una latencia mínima. A medida que aumentan las cargas de trabajo como el entrenamiento distribuido de modelos de IA y la inferencia en tiempo real, el Ethernet tradicional tiene dificultades para manejar la latencia y la congestión. RoCEv2 (RDMA over Converged Ethernet v2), una tecnología clave para redes RDMA sin pérdida, ofrece una alternativa escalable y de baja latencia. Sin embargo, lograr un rendimiento constante con RoCEv2 depende en gran medida de una gestión eficaz de la congestión. Este artículo explora los mecanismos de congestión de RoCEv2 y presenta cómo FS ofrece una solución de red sin pérdida, robusta y diseñada para cargas de trabajo exigentes.
Resumen de la tecnología RoCEv2
RoCEv2 es un protocolo de red que permite RDMA (Acceso Remoto Directo a Memoria) a través de redes Ethernet de Capa 3 mediante encapsulación UDP/IP. Al agregar encabezados IP y UDP a los paquetes RDMA, RoCEv2 extiende la comunicación RDMA más allá de los dominios de Capa 2, lo que permite su transmisión en redes de Capa 3 y el enrutamiento entre múltiples subredes. Esto mejora significativamente la escalabilidad y flexibilidad de la red, razón por la cual RoCEv2 también es conocido como Routable RoCE (RRoCE).
RoCEv2 evita la pila tradicional de TCP/IP y permite el acceso directo a la memoria entre hosts, ofreciendo así una latencia ultrabaja y un ancho de banda elevado. Estas ventajas de rendimiento lo hacen especialmente adecuado para cargas de trabajo intensivas en datos y sensibles a la latencia, como la computación de alto rendimiento (HPC), el entrenamiento de modelos de IA/ML, los sistemas de almacenamiento distribuido y los entornos de virtualización.
Comprender la gestión de congestión en RoCEv2
Para aprovechar al máximo las ventajas de rendimiento de RoCEv2, es fundamental construir una red Ethernet sin pérdida que pueda gestionar eficazmente la congestión. Por ello, comprender las causas raíz de la congestión y los mecanismos de mitigación correspondientes es clave para implementar una infraestructura basada en RoCEv2 que sea estable y eficiente.
Causas raíz de la congestión en RoCEv2
En una red RoCEv2 de alto rendimiento, la congestión puede originarse por múltiples factores:
Microestallidos que provocan desbordamientos de búfer en los switches.
Hotspots, donde los patrones de tráfico se concentran en unos pocos puertos.
Balanceo de carga ineficiente en rutas ECMP (Equal-Cost Multi-Path).
Falta de mecanismos de retroalimentación que ajusten dinámicamente las tasas de envío.
Ruta del tráfico en la red RoCEv2 y mecanismo de propagación de congestión
En las redes RoCEv2, se produce acumulación en la cola de búfer del switch cuando múltiples flujos compiten por el ancho de banda en los puertos de salida del switch de agregación o del switch núcleo. A medida que aumenta la cantidad de datos en cola, si se alcanza el umbral de ECN (Explicit Congestion Notification), el switch marcará los paquetes salientes con ECN para indicar que el receptor ha detectado una posible congestión. Si la congestión continúa aumentando y supera el umbral de descarte (Drop Threshold), puede producirse pérdida de paquetes.
Cuando la NIC en el extremo receptor detecta la marca ECN, envía inmediatamente paquetes de notificación de congestión (CNP) al emisor. Tras recibir el CNP, el emisor ajusta su tasa de envío según el algoritmo DCQCN (Data Center Quantized Congestion Notification) para reducir la inyección de tráfico y aliviar la congestión. Este mecanismo de retroalimentación garantiza que la congestión no se propague indefinidamente a lo largo de la red, permitiendo así un control de congestión refinado y de extremo a extremo en redes de centros de datos con múltiples saltos.
Mecanismos de gestión del control de congestión en RoCEv2
Control de flujo por prioridad (PFC): PFC actúa como la "primera línea de defensa" y su función principal es proporcionar una transmisión sin pérdida en la capa de enlace para evitar que el tráfico crítico se pierda debido a la congestión. PFC permite la transmisión sin pérdida pausando el tráfico por cola de prioridad. Ayuda a prevenir la pérdida de paquetes causada por el desbordamiento del búfer, pero puede generar bloqueos por cabecera de línea (head-of-line blocking) y bloqueos mutuos (deadlocks) si se configura incorrectamente.
Notificación explícita de congestión (ECN): ECN es un mecanismo proactivo de capa 3. Cuando la congestión persiste, el switch marca el tráfico con ECN para notificar al receptor sobre la presencia de congestión en el camino. El receptor entonces avisa al emisor para que disminuya la velocidad, permitiendo un ajuste inteligente de la tasa sin pérdida de paquetes.
Notificación cuantificada de congestión para centros de datos (DCQCN): DCQCN es un algoritmo de control de congestión diseñado específicamente para RoCEv2. Combina la retroalimentación de ECN con un mecanismo de control basado en la tasa a nivel de la NIC. Cuando se reciben paquetes marcados con ECN, DCQCN reduce la tasa de envío usando un algoritmo de incremento aditivo y decremento multiplicativo (AIMD). Esto garantiza un uso justo del ancho de banda mientras alivia la presión de congestión de manera fundamental.
Para construir una red RoCEv2 sin pérdida, estable y escalable, normalmente es necesario desplegar estos tres mecanismos de forma cooperativa. PFC asegura la comunicación en capas bajas sin pérdida de paquetes, ECN detecta el estado de la red y DCQCN se encarga del ajuste inteligente del tráfico, siendo esta la solución predominante en clústeres de entrenamiento de IA a gran escala y entornos HPC actuales.
RoCEv2 vs Control de congestión tradicional TCP/IP
Las redes tradicionales TCP/IP gestionan la congestión mediante mecanismos bien establecidos integrados en la pila del protocolo TCP, como el inicio lento (slow start), la evitación de congestión (congestion avoidance) y la retransmisión de paquetes. Aunque efectivos para redes de propósito general, estos métodos presentan una alta carga en la CPU y mayor latencia debido a su dependencia del procesamiento a nivel de kernel y la respuesta a la congestión basada en software. Además, el control de congestión en TCP/IP es principalmente reactivo, ya que detecta la congestión después de que se ha producido pérdida o retraso de paquetes.
En contraste, RoCEv2 está diseñado para entornos de computación de alto rendimiento, permitiendo una comunicación con baja latencia, baja variabilidad de retardo (jitter) y alto rendimiento al evitar completamente la pila TCP. RoCEv2 utiliza encapsulación UDP/IP, lo que lo hace enrutable a través de redes de Capa 3, y aprovecha la aceleración de transporte basada en hardware para descargar el control de congestión de la CPU.
Por su parte, las redes basadas en TCP/IP pueden adoptar un protocolo mejorado llamado DCTCP (Data Center TCP), que integra ECN en el proceso de control de congestión de TCP. DCTCP mejora la capacidad de respuesta del TCP tradicional ante la congestión incipiente, pero sigue ligado al control de flujo basado en ventanas de TCP y a la pila del kernel.
DCQCN vs DCTCP: Comparación de los mecanismos de control de congestión
Dos algoritmos de control de congestión comúnmente utilizados en redes modernas de centros de datos son DCQCN (para RoCEv2) y DCTCP (para TCP/IP). La siguiente tabla compara sus características principales.
Característica | DCQCN | DCTCP |
Transporte subyacente | RDMA over Converged Ethernet (RoCEv2) | Transmission Control Protocol (TCP) |
Capa de protocolo | Transporte/Aplicación | Transporte |
Detección de congestión | Marcado ECN en switches | Marcado ECN en switches |
Mecanismo de Feedback | CNP (Paquete de Notificación de Congestión) | Bit ECN-Echo en ACK TCP |
Acción de control | Control de flujo basado en tasa (algoritmo AIMD) | Control de congestión basado en ventana |
Objetivos de rendimiento | Ultra baja latencia, sin pérdidas, alto rendimiento | Mejor equidad y latencia sobre TCP clásico |
Dependencia de hardware | Requiere SmartNIC compatible con DCQCN | Funciona en NIC estándar |
Tolerancia a pérdida de paquetes | Diseñado para entornos sin pérdidas | Tolera pérdidas con retransmisión |
Casos de uso típicos | IA/ML, HPC, almacenamiento RDMA | Servicios generales, RPC, web en centros de datos |
Solución de red sin pérdidas RoCEv2 de FS para centros de datos de IA de nueva generación
El rápido avance de la inteligencia artificial generativa (IA) ha cautivado a audiencias de todo el mundo, llevando la IA y el aprendizaje automático (ML) al centro de la innovación empresarial. En el núcleo de esta transformación se encuentran los centros de datos. FS solución de red sin pérdidas FS 400G RoCEv2 ofrece un enfoque integrado de pila completa, que abarca desde el hardware de red hasta el software de gestión. Impulsada por switches Ethernet PicOS® de 400G y la plataforma de gestión AmpCon-DC, proporciona el máximo rendimiento para aplicaciones de IA, aprendizaje automático y computación de alto rendimiento (HPC). A continuación se destacan los puntos clave de esta solución:
Operaciones Simplificadas para Reducir el OPEX de Red: La plataforma de gestión AmpCon-DC de FS ofrece capacidades completas de gestión del ciclo de vida desde el Día 0 hasta el Día 2+ para redes IP/EVPN-VXLAN, con aseguramiento de circuito cerrado en el centro de datos.
PicOS® Garantiza Operaciones Estables y Seguras: PicOS® presenta un diseño modular que permite la operación independiente de componentes, función de reversión con doble partición para una restauración rápida, y completas funciones L2/L3 que mejoran la disponibilidad de la red.
100 % Interoperable con Switches, Fábricas y GPUs: La solución de FS está completamente basada en estándares Ethernet, lo que maximiza la flexibilidad de diseño y evita el bloqueo por parte de proveedores en redes de IA de backend, frontend y almacenamiento.
Servicios de Prueba de FS para Garantizar Rendimiento y Compatibilidad: FS ofrece servicios de prueba diseñados para que los clientes puedan conocer el rendimiento de nuestros productos y soluciones antes de implementarlos.
Diseño de Soluciones Profesionales para Satisfacer Necesidades Personalizadas: Los arquitectos de soluciones y equipos de entrega de FS aprovechan su experiencia técnica y conocimiento del sector para ayudar a los clientes a completar de forma eficiente la evaluación, diseño e implementación de sus redes.
Conclusión
A medida que los centros de datos siguen creciendo y deben soportar cargas de trabajo sensibles a la latencia, una gestión eficaz de la congestión se convierte en un factor clave para el rendimiento de la red y la eficiencia de las aplicaciones. RoCEv2 ofrece una solución potente para construir redes sin pérdidas y de baja latencia en centros de datos, gracias a sus avanzados mecanismos de control de congestión, superando ampliamente los enfoques tradicionales basados en TCP/IP en entornos de alto rendimiento. La solución integral de FS basada en RoCEv2 maximiza estos beneficios mediante hardware totalmente integrado, configuraciones optimizadas y servicios de implementación especializados. Al combinar innovación tecnológica con experiencia práctica, FS ayuda a los clientes a construir redes escalables, eficientes y resilientes frente a la congestión para IA, HPC y más allá.