10GbE関連情報
HPCクラスタのストレージ環境を改善する方法には、「分散型ストレージ」を用いてファイルサーバ (スイッチより上流のアップリンク側) のスループットを改善する方法と、「HPCクラスタの10GbE化」によってクライアント側 (スイッチより下流のダウンリンク側) のボトルネックを改善する方法の2種類があります。これらの方法は補完関係にあり、システムの規模や目的にあわせて片方あるいは両方を導入することでストレージ環境を劇的に高速化できます。
「分散型ストレージ」と「HPCクラスタの10GbE化」を単独あるいは複合して利用することで次のような幅広い性能レンジを実現できます。(性能の目安)
・ GbE単独: 50MB/s
・ GbEの分散型ストレージ: 50MB/s + 50MB/s
・ GbEとGbE並列処理での分散型ストレージ: 50MB/s + N x 50MB/s
・ 10GbE単独: 500MB/s
・ GbEと10GbEでの分散型ストレージ: 50MB/s + 500MB/s
・ GbEと10GbE並列処理での分散型ストレージ: 50MB/s + N x 500MB/s
HPCクラスタ全体の10GbE化は遅れています。HPCクラスタで10GbEを使う範囲はファイルサーバ (スイッチより上流のアップリンク側) に限られています。その理由は、HPCクラスタ全体を10GbE化するために欠かせない10GBASE-T関連の部品のラインナップが不十分だからです。10GBASE-Tはカテゴリー6のケーブルで100mの距離を高速通信します。そのための物理的な通信処理が難しく、結果的にそれが消費電力と価格の高さに跳ね返ってきました。
しかし低消費電力の半導体が開発されたことで10GBASE-T関連の製品が徐々に充実してきました。まだ信頼性や価格に課題がありますが、構成を工夫すればHPCクラスタの段階的な10GBASE-T化が可能になりました。
2011年の秋に発売される予定の新Xeon (Sandy Bridge) の性能を予想すると、単体コアの性能は256bitのAVX命令によって128bitのSSE4命令の2倍に向上し、そのコアを8個搭載する8コアプロセッサの性能は従来の4コアプロセッサの4倍に向上すると推定できます。
・ 現 Xeon 1CPU 4core 3.33GHzの理論性能: 53GFLOPS
・ 現 Xeon 2CPU 6core 3.33GHzの理論性能: 160GFLOPS
・ 現 Xeon 4CPU 8core 2.27GHzの理論性能: 291GFLOPS
・ 新 newX 1CPU 4core 3.33GHzの推定理論性能: 107GFLOPS (今春)
・ 新 newX 2CPU 8core 3.33GHzの推定理論性能: 426GFLOPS (今秋)
・ 新 newX 4CPU 8core 2.83GHzの推定理論性能: 725GFLOPS (来春)
アーキテクチャが改良されプロセッサの性能が大幅に向上すると、計算機がファイルを読み書きする量も大幅に増えます。その結果、クライアント側でもファイル転送ボトルネックが発生すると考えられます。
例えばファイルのサイズが16GBになるとGbE経由でNFSで転送する時間は約5分にもなります。このような時間がかかると計算速度への影響も大きく対策が必要になります。その対策として転送時間を短くするためにはネットワークを10GbEへアップグレードすることが最も効果的です。ネットワークを10GbE化することで転送にかかる時間を1分以下に短縮できます。
HPCクラスタ全体を10GbE化するために最適なネットワークの規格は10GBASE-Tです。次に10GBASE-Tの特徴を記します。
・ 10GBASE-Tは1000BASE-Tと下位互換性があり両者を混在させられる
・ 10GBASE-Tは入手が簡単なカテゴリー6/6aのケーブを採用
・ 10GBASE-Tは取り扱いが容易なカテゴリー6/6aのケーブを採用
・ 10GBASE-Tの伝送距離は最大100m
・ 10GBASE-Tは将来HPCクラスタ用ネットワークの主流となる
・ 10GBASE-Tは将来価格が大幅に低下する
・ 10GBASE-Tに関連した製品のラインナップはこれから充実する
これらの特徴からHPCクラスタ全体を10GbE化する場合に10GBASE-T以外の選択肢はありません。
10GBASE-Tは優れたネットワーク規格ですが、複雑な処理をしているため消費電力が大きいという課題が残されています。そのため実装密度が高いネットワークスイッチや低消費電力のネットワークカードの製品化に長い期間が掛かっています。しかし、最近になって低消費電力化になった第3世代の半導体を使った製品が登場しています。
第3世代の半導体を使ったネットワークスイッチは、1Uサイズの筺体に24ポートの10GBASE-Tを搭載しながら240Wという低消費電力を実現した製品が市販されています。この消費電力なら1Uサイズの筺体に高密度実装されていても安心して利用できます。10GBASE-Tのネットワークスイッチは実用期に達しました。残された問題は価格の高さだけです。これから価格が下がれば10GBASE-Tのネットワークスイッチは一挙に普及するでしょう。
これに対して10GBASE-T対応のネットワークカードはまだ根本的な課題が残っています。改良された第3世代の半導体を使っても消費電力の問題を解決できないのです。最新の2ポートの10GBASE-Tネットワークカードの消費電力は20Wを上回るため冷却ファンが必要です。冷却ファンは回転部品ですから高い信頼性はありません。そのためこのネットワークカードをファイルサーバ用には使えません。まだ暫くの間、ファイルサーバには信頼性の高い10GBASE SFP+ネットワークカードを使うことになります。
これに対してクライアント側で使用する場合はあまり高い信頼性は必要ありませんから、このネットワークカードを使用しても問題ありません。もし直ぐに10GbEを利用されたいならこのネットワークカードをご使用ください。
しかしクライアント側の計算機に2ポートの10GBASE-Tを搭載するのは不経済です。もし待てるのなら、これから発売されるはずの経済的な1ポートの10GBASE-Tネットワークカードを搭載することをお勧めします。
ファイルサーバを10GbE化するためには信頼性が高い10GBASE SFP+ネットワークカードを使用します。10GBASE SFP+のネットワークカードの消費電力は7Wと低く冷却ファンが不要です。そのため信頼性が高くファイルサーバ用のネットワークカードとして安心して使えます。しかも多くの実績化があります。
ところで、ファイルサーバが10GBASE SFP+で、クライアントは10GBASE-Tだと、ネットワークスイッチは両方の規格に対応しなければなりません。幸いにも、24ポートの10GBASE-Tスイッチは、別に4ポートの10GBASE SFP+ のコンボポートを追加できます。すなわち、24ポートの10GBASE-Tと、4ポートの10GBASE SFP+を搭載しています。このスイッチがあるおかげでネットワーク規格が複合したシステムを構築できるのです。
できればHPCクラスタ全体を一挙に10GBASE-T化したいところです。しかしそれには時期尚早です。今の状況では10GbEの帯域幅がどうしても必要な計算機に限って10GBASE-T化する方針が合理的です。
10GbE化する作業の基本は上流からの10GbE化することです。第1ステップはネットワークスイッチの10GBASE-T with 10GBASE SFP+ 化、ファイルサーバの10GBASE SFP+ 化、計算機の部分的な10GBASE-T化を実施ましす。そしてネットワークスイッチの10GBASE-Tと計算機の1000BASE-Tを暫定的に接続します。
HPCクラスタ全体を10GbE化すると既存のGbEストレージが取り残されます。そこでそのGbEストレージを再利用して分散型ストレージ環境を構築したらどうでしょうか。
分散型ストレージの考え方は、保存するファイルの種類に応じて最適なストレージを使い分け、高い信頼性、高い応答速度、広い帯域幅を構造的に実現することです。具体的には、既存のGbEストレージに保存しているファイル群を、「ユーザ系・システム系ファイル群」と、「ワーク系ファイル群」の2群に分割します。そして前者は既存のGbEストレージで運用を継続し、後者は新しく導入する10GbEストレージに移動して運用します。
これまで全てのファイルを保存していたGbEストレージから、大きな帯域幅を消費するワーク系ファイル群が出てゆきます。そのためGbEストレージに掛かる負荷は大幅に低下し、ユーザ系・システム系ファイル群の応答速度は最良の状態に復帰します。
大きな帯域幅を必要とするワーク系ファイル群は10GbEストレージで運用されることで桁違いの性能を発揮します。すると10GBASE-Tを搭載したクライアント機も桁違いのファイルI/O性能を利用できます。
このようにGbEストレージと10GbEストレージを混在させた分散型ストレージを構築すると、既存のGbEストレージと新しい10GbEストレージの特長をフルに利用したストレージを実現できます。全てを10GbEストレージに移すよりも遥かに信頼性と性能が高いストレージ環境を実現できます。
24-Port 10GBASE-T with 4-Port 10GBASE SFP+ スイッチ
24-Port 10GBASE SFP+ with 4-Port 10GBASE-T スイッチ
写真上側のスイッチは10GbEの本命である10GBASE-T対応の24ポートスイッチです。このスイッチは別に4ポートの10GBASE SFP+コンボポートを追加できます。それを利用することで、ファイルサーバとの間は信頼性が高い10GBASE SFP+による接続を行い、計算機とは下位互換性を備えた10GBASE-Tによる接続が可能です。
写真下側のスイッチはこれまで標準的に使われてきた10GBASE SFP+対応の24ポートスイッチです。10GBASE SFP+は高信頼性、低価格、低消費電力を実現した優れた規格です。しかしその反面、他の規格と互換性が無い、接続距離が短い (最大10m)、ケーブルが嵩張る、などの欠点があります。そのためHPCクラスタ全体を10GBASE SFP+で10GbE化することは推奨できません。
Dual Port 10GBASE-T NIC (伝送距離100m)
写真はDual Port 10GBASE-T ネットワークカードです。10GBASE-T規格には4つの長所があります。1つ目は、通常のRJ-45コネクタを用いた1000BASE-Tと下位互換性があることです。そのためHPCクラスタ全体の10GbE化を柔軟に進められます。2つ目は、入手が簡単なカテゴリー6Aケーブルが使えることです。3つ目は、ケーブルの取り回しが容易なことです。4つ目は、リンク距離が最大100mとHPCクラスタで利用するには十分な長さがあることです。これら4つの長所によって10GBASE-Tは10GbEの主流になると期待されています。
しかし10GBASE-T対応のネットワークカードには消費電力の問題が残されています。新発売された2ポートの10GBASE-Tネットワークカードでも消費電力は20Wを上回っています。そのため冷却ファンが必要です。しかし冷却ファンは回転部品ですから製品の信頼性を低下されます。
またこの2ポートの10GBASE-Tネットワークカードをクライアント側で使う場合も課題が残されています。2ポートの10GBASE-Tはクライアント用としては過剰品質です。もう少し待つと低価格な1ポートの10GBASE-Tのネットワークカードが発売されると思われます。
このような理由から、2ポートの10GBASE-Tネットワークカードを使用できる局面は限られたものになります。
しかしここからが10GBASE-Tの真価が発揮されるところです。10GBASAE-Tは下位互換性があるため、スイッチが10GBASE-T化されていても計算機の方は従来の1000BASE-Tによって通信できます。1000BASE-Tを暫定的に使用しておき、機が熟したら10GBASE-Tを追加導入する柔軟なシステム構築が可能です。
発売が待たれるSingle Port 10GBASE-T NIC
クライアント側で使う10GBASE-Tネットワークカードは1ポートの製品が適しています。そのため1ポートの 10GBASE-Tネットワークカードの発売が待たれます。ポート数を少なくすることで低消費電力化と低価格化が期待できます。
もし1ポート化することで消費電力が下がり冷却ファンが不要になればファイルサーバに使用することも可能です。
Dual Port 10GBASE SFP+ Twinaxial (伝送距離10m)
Dual Port 10GBASE SFP+ SR (伝送距離300m)
Dual Port 10GBASE SFP+ LR (伝送距離10km)
写真はDual Port 10GBASE SFP+ネットワークカーです。この製品は、高信頼性、高速、低価格、低消費電力と4拍子も揃った優れた製品です。コネクタの規格は手軽で低コストな SFP+ Direct Attached Cable (Twinaxial) と呼ばれるものです。
このコネクタにはリンク距離10mの銅ケーブルを直接挿して使うことができます。転送距離が短くケーブルは嵩張りますがファイルサーバとの間のアップリンク接続であれば問題はありません。
この製品の長所の1つは低消費電力です。10GbEポートを2個も搭載していながら消費電力は7Wです。そのため冷却ファンを必要とせず高い信頼性を実現しています。
10GBASE SFP+ の将来の用途は光接続です。ソケットに光トランシーバを挿入して光接続が可能です。SR型 (short reach) トランシーバならリンク距離は300m、LR型 (long reach) トランシーバならリンク距離は10kmまで伸ばせます。
10GBASE XF SR/LR Single/Dual Port NIC
(リンク距離、光ファイバーSR 300m、同LR 10km)
10GBASE XF NICは光ファイバーを用いるNICで2種類の製品から構成されています。リンク距離が300mと短距なSR型 (short reach) と、リンク距離が10kmと長距離のLR型 (long reach) がラインナップされており、距離が離れたクラスタやセンター間の接続などの基幹部で利用され、幅広い機種でサポートされ広く利用されています。しかしSFP+がSRやLRトランシーバーに対応しており、将来はSFP+に移行します。
10GBASE CX4 Dual Port NIC (リンク距離10m)
写真の10GBASE CX4 NICは、高速、低価格なNICとして10GbEの低価格化に貢献しました。しかし、InfiniBandで用いる銅のシールド線を用いるため重く嵩張ります。そのため、アップリンク用に用いるだけなら問題はありませんが全面的な10GbE化には適しません。このような事情から現在では10GBASE CX4は10GBASE SFP+や10GBASE-Tに置き換えられました。