NVIDIA NVLinkの概要
Jan 29th 2024より更新読了時間約1分
NVIDIA NVLinkは、高性能計算(HPC)と人工知能(AI)の分野で重要な技術として登場しました。この記事では、NVLinkの複雑さを掘り下げ、NVSwitch チップ、NVLinkサーバー、NVLinkスイッチについて学び、進化し続ける先端コンピューティングの状況におけるその重要性を説明します。
NVIDIA NVLinkとは?
NVLinkは、サーバー内のGPU間の通信制限に対処するプロトコルです。帯域幅に制限がある従来のPCIeスイッチとは異なり、NVLinkはサーバー内のGPU間の高速な直接相互接続を可能にします。第4世代のNVLinkは、PCIe Gen5レーンと比較して、1レーンあたり112Gbpsと大幅に高い帯域幅を提供し、3倍高速です。

NVLinkは、従来のネットワークと比較してオーバーヘッドを最小限に抑え、GPUの直接相互接続のための合理化された高速ポイントツーポイントネットワークを提供することを目指しています。異なるレイヤ間でCUDAアクセラレーションを提供することで、NVLinkは通信関連のネットワークオーバーヘッドを削減します。NVLinkはGPUアーキテクチャとともに進化しており、図に示されているように、P100用のNVLink1からH100用のNVLink4へと進歩しています。NVLink 1.0、NVLink 2.0、NVLink 3.0、NVLink 4.0の主な違いは、接続方法、帯域幅、性能にあります。

NVSwitchチップ
NVSwitchチップは、複数のGPUを高速NVLinkインターフェースで接続し、サーバー内の通信と帯域幅を向上させる、スイッチASICに似た物理チップです。NVIDIA NVSwitchの第3世代が提案されており、各GPUのペアを900GB/秒という驚異的な速度で相互接続できます。

64個のNVLink4ポートを備えた最新のNVSwitch3チップは、合計12.8 Tbpsの一方向帯域幅または3.2 TB/sの双方向帯域幅を提供します。NVSwitch3チップの特徴は、SHARP機能の統合です。SHARP機能は、すべての削減処理中に複数のGPUユニットにまたがる計算結果を集約して更新し、ネットワークパケットを削減して計算性能を向上させます。

NVLinkサーバー
NVLinkサーバーは、GPUを接続するためにNVLinkとNVSwitch技術を組み込んだもので、通常、NVIDIAのDGXシリーズサーバーや、同様のアーキテクチャを持つOEM HGXサーバーに搭載されています。これらのサーバーはNVLink技術を利用し、卓越したGPU相互接続性、スケーラビリティ、HPC機能を提供します。2022年、NVIDIAは、新しいNVIDIA DGX H100サーバーで構築された世界初のAIプラットフォームである第4世代NVIDIA® DGX™システムを発表しました。

その結果、NVLink サーバーは、科学計算、AI、ビッグデータ処理、データセンターなどの重要な領域で不可欠なものとなりました。堅牢なコンピューティング能力と効率的なデータ処理を提供することで、NVLink サーバーはこれらの分野の厳しい要件を満たすだけでなく、これらの分野の進歩を推進し、イノベーションを促進します。

NVLinkスイッチ
2022年、NVIDIAはNVSwitchチップを取り出し、ホスト間でGPUデバイスを接続するNVLinkスイッチと呼ばれるスイッチにしました。各OSFPは8つの112G PAM4レーンで構成され、各スイッチにはNVSwitch3チップが 2つ内蔵されています。

NVLinkネットワーク
NVSwitch物理スイッチは、複数のNVLink GPUサーバをNVLinkネットワークである大規模ファブリックネットワークに接続し、GPU間の高速通信帯域幅と効率の問題を解決します。各サーバーはそれぞれ独立したアドレス空間を持ち、NVLinkネットワーク内のGPUにデータ転送、分離、セキュリティ保護を提供します。システムが起動すると、NVLinkネットワークはソフトウェアAPIを通じて自動的に接続を確立し、動作中にアドレスを変更できます。

この図は、NVLinkネットワークと従来のイーサネットネットワークを比較したもので、IPイーサネットから独立したGPUサービス専用のNVLinkネットワークの構築を示しています。
概念 | 従来の例 | NVLinkネットワーク |
物理層 | 400G電気/光メディア | カスタムFW OSFP |
データリンク層 | イーサネット | NVLinkカスタムオンチップHWとFW |
ネットワーク層 | IP | 新しいNVLinkネットワークアドレスと管理プロトコル |
トランスポート層 | TCP | NVLinkカスタムオンチップHWとFW |
セッション層 | ソケット | SHARP groupsCUDAによるデータ構造のネットワークアドレスのエクスポート |
プレゼンテーション層 | TSL/SSL | ライブラリ抽象化(NCCL、NVSHMEMなど) |
アプリケーション層 | HTTP/FTP | Alフレームワークまたはユーザーアプリ |
NIC | PCIe NIC(カードまたはチップ) | GPUとNVSwitchに組み込まれた機能 |
RDMAオフロード | NICオフロードエンジン | GPU内蔵コピーエンジン |
コレクティブオフロード | NIC/スイッチオフロードエンジン | NVSwitch内蔵SHARPエンジン |
セキュリティオフロード | NICのセキュリティ機能 | GPU内蔵暗号化と「TLB」ファイアウォール |
メディアコントロール | NICケーブルのアダプテーション | NVSwitch内蔵OSFPケーブルコントローラー |
表:従来のネットワーク概念とNVLinkスイッチシステムの対応関係 |
InfiniBandネットワークとNVLinkネットワークの比較
InfiniBandネットワークとNVLinkネットワークは、ハイパフォーマンス・コンピューティングとデータセンター・アプリケーションで使用される2つの異なるネットワーク技術です。両者には次のような違いがあります:
アーキテクチャと設計: InfiniBandネットワークは、マルチチャンネルの高速シリアル接続を利用するオープンスタンダードのネットワーク技術で、ポイントツーポイント通信とマルチキャスト通信をサポートします。NVLinkネットワークは、GPU間の高速直接接続用に設計されたNVIDIA独自の技術です。
アプリケーション:InfiniBandネットワークは、HPCクラスタや大規模データセンターで広く使用されています。NVLink Network は、主に大規模GPUクラスター、HPC、AI、その他の分野で使用されています。
帯域幅とレイテンシー:InfiniBand ネットワークは、高帯域幅と低遅延通信を提供し、高いスループットと短い伝送遅延を実現します。NVLink ネットワークは、GPU 間でより高い帯域幅とより低いレイテンシを実現し、高速なデータ交換と協調コンピューティングをサポートします。以下は、NVLinkネットワークを使用したH100とIBネットワークを使用したA100の帯域幅の比較です。

まとめ
NVIDIA NVLinkは、HPCとAIの分野に革命をもたらした画期的なテクノロジーです。GPU通信を強化し、パフォーマンスを向上させ、シームレスな並列処理を可能にするその能力により、NVLinkは、数多くのHPCおよびAIアプリケーションにおいて不可欠なコンポーネントとなっています。高度なコンピューティングの状況が進化し続ける中、NVLink の重要性と影響力は拡大し、イノベーションを推進し、可能性の限界を押し広げることになるでしょう。