お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
オプション製品 (H/W)  
イーサネット・スイッチ  
GbE-8/16/24P 1U 価格
GbE-8/16/24/48P 1U 価格
GbE-24/48P L3 1U 価格
GbE-24/48P 10GbE-4P StaL3 価格
GbE-20P 10GbE-4P StaL3Bl 価格
10GbE-24P L3 1U 価格
10GbE-24P L3 Blade 価格
2x10GBASE-T NIC  
2x10GBASE SFP+ NIC  
10GbE技術資料 (10GbEポート)  
インフィニバンド・スイッチ  
Infini/B DDR/QDR 24/36PRa 価格
Infini/B DDR/QDR 24/32PBl 価格
GPGPU  
Tesla C2050 WS (T7500)
Tesla S2050 Cluster (R410/R610)
Tesla M2050 Cluster (C410x)
Tesla M2050 Blade (M610X)
EIAラック/メタルラック  
24/42U EIA Rack 価格
MetalRack (for WS Cluster)  
無停電電源  
A-UPS 価格
D-UPS 価格
コンソール機器  
KVMコンソール 17in 1U  
KVM切替 8/16P (64/128P) 1U  
液晶モニター (各種)  
拡張カード類  
RAIDコントローラ  
(旧製品)  
InfiniBand DDR-24P  
InfiniBand SDR-24P  

HPC-ProSwitch DPc8024
24-Ports 10GBASE-T with 4-Ports 10GbE SFP+ Combo
HPC-ProSwitch DPc8024F
24-Ports 10GbE SFP+ with 4-Ports 10GBASE-T Combo

最大28ポート (24+4) の10GbE接続が可能
10GBSE-Tと10GBASE SFP+を混載できるコンボポートを実装
冗長化電源と可変速ファンを採用し高い可用性を実現
安心の3年間の翌営業日交換品発送保守サービスが標準付帯
オプションにて5年間の24時間365日の当日4時間オンサイト保守にも対応

製品概要 | 構成例 | 技術情報 | 価格表 | 仕様 | カタログ | サポート
10GbEとHPCクラスタに関する技術情報

 高速かつ大容量で快適なHPCクラスタを設計する際、性能限界を示し始めたギガビット・イーサネットの採用には躊躇を覚える場合が増えています。その理由を挙げると、マルチコア計算機が性能向上していること、計算機に搭載するコア数が増加してゆくこと、メモリが大容量化してゆくこと、ハードディスクが高速・大容量・低価格化してゆくことなど、いくつも数えることができます。現時点ではギガビット・イーサネットで対応できたとしても、近い将来には対応出来なくなる可能性が高いと思えます。

 しかし幸いにも、「HPC-ProSwitch DPc8024F」に代表されるような10GbEポートを24個も備えたイーサネット・スイッチが比較的低価格で提供され始めました。これはHPCクラスタの利用者にとっては大きな朗報です。10ギガビット・イーサネットを利用することで、計算機の性能向上や容量拡大が進んでも、HPCクラスタの便利で快適な利用環境を継続することが可能になりました。

GbEによるクラスタの限界

イーサネットが育んだクラスタ計算機

 HPCクラスタは、「廉価なイーサネットによって低価格な計算機を相互接続し一体化することで、大型計算機に匹敵する性能と機能を持つ計算機を廉価に実現する」、というアイディアを基本に据えて発達してきました。このアイディアを支えてきた基幹部品がイーサネット・スイッチです。その後、HPCクラスタが幅広く利用されるようになると、イーサネット・スイッチでの並列計算時の通信ボトルネックが問題となりました。その問題を解決するため高速な専用スイッチが開発されました。その結果HPCクラスタは、廉価なイーサネット・スイッチと、高速な専用スイッチの使い分けができるようになりました。この選択肢の広がりがHPCクラスタの普及を決定的なものにしました。

クラスタの情報共有基盤を支えるイーサネット

 HPCクラスタでは、並列計算用の通信とは別に、クラスタ内での計算機間の情報共有を行うための通信をイーサネットを利用して行っています。通信している内容は、各種ファイルやソフトウェア、ライブラリ類、システムの監視、処理命令、ネットワーク情報などです。これらの通信がはたす役割は並列通信のように脚光を浴びていません。しかしHPCクラスタを運用するためには必須の通信処理です。このHPCクラスタを支える通信基盤をイーサネットは一手に引き受けているのです。

10GbEへの世代交代の遅れ

 HPCクラスタの情報共有にはギガビット・イーサネットが使用されています。ギガビット・イーサネットは熟成期にある工業製品として最高のコストパフォーマンスを実現しています。ところが、次世代の10ギガビット・イーサネットの開発は遅れており、世代交代に長い時間が掛かっています。このように、ネットワークが世代交代に手間取っている間も、計算機は性能と容量を順調に向上させています。その結果、ギガビット・イーサネットと計算機の間には大きな性能ギャップが発生しています。

GbEの性能限界によるクラスタの小型化

 計算機とギガビット・イーサネットの性能ギャップによりHPCクラスタは小型化しています。その状況を確認するため過去と現在のクラスタの大きさ比較してみます。過去の構成例としてPentium4 1CPU機によるクラスタの規模を考えます。毎分10MBのファイル入出力を行うアプリケーションを、NFSの実効性が40MB/sのギガビット・イーサネットで接続したクラスタで動作させた場合の適正規模は約128台です。これに対して、現在のXeon (Nehalem) 2CPU 8コア機で構成したクラスタの規模を考えます。Xeon (Nehalem) 2CPU 8コア機はPentium4 1CPU機と比較して約16倍も高速化しています。そのため、同じ条件での適正規模は約8台にまで小型化しています。

多くの通信に支えられている現代のクラスタ

 HPCクラスタをフル稼働させるとネットワークの負荷が想像以上に高いことに気が付きます。HPCクラスタで行われている通信は並列処理とファイル入出力だけではありません。現代のHPCクラスタは自動ジョブ処理機能を備えた高度なシステムに発展しています。システムの背後では自動運転をするための通信が頻繁に行われています。そのため、もしこれらの通信に遅延が生じるとHPCクラスタの挙動は一気に不安定になります。そこで、これらの通信が停滞なく行われるようにするため、通信には十分な余裕が必要です。このような理由から、ギガビット・イーサネットによるXeonクラスタの適正規模は8台から16台と考えた方が良いのです。

HPCクラスタの小型化で失われるもの

 HPCクラスタを小型化することで安定動作は確保できます。しかしその結果、複数の小型クラスタを個々に運

用・運用することになり、HPCクラスタが持つ便利さ、効率、保守性などが低下してしまいます。これは望ましいことではありません。今後、計算機がさらに高性能化し大容量化するとHPCクラスタの小型化に拍車がかかります。そこで小型化を避けるため幾つかの方法を検討します。

クラスタの小型化 (分割) を回避する方法

 クラスタの小型化によるデメリットを避けるための機能強化の手法としては、ネットワークの多重化、ファイルサーバの分散、10GbEによるネットワークの高速化などが一般的です。これらを階層的に組み合わせることも可能です。これらを順にご紹介します。

ネットワークの多重化

ネットワークの多重化 (GbEボンディング) によるボトルネック回避

 ネットワークの多重化は、ネットワーク・ボンディングと呼ばれる技術を利用する方法が最も洗練されています。具体的には、サーバにマルチポートのネットワークカード (2ポートないしは4ポート) を搭載し、それらを仮想的に単一のネットワークに見せかけることで平行処理を実現し、ネットワーク性能をリニアに向上させることができます。ネットワークカードのベンダーもマルチポートのGbE NICを製品化しており、ネットワーク帯域を向上させるための標準的な技術として定着しています。4ポートのGbE NICを用いてボンディングすると16台〜32台のクラスタの構築が可能になります。

GbEボンディングの限界

 GbEボンディングは実用的かつ高いコストパフォーマンスを持つ技術です。しかし課題もあります。GbEボンディングはサーバ側のスループットを向上させることは可能です。しかし、クライアント側のGbE性能が向上するわけではありません。そのため、クライアント側の計算機の性能が向上するとクライアント側にもボトルネックが発生します。また、GbEボンディングは2〜3倍程度の性能向上のため、すぐに次の性能限界に到達します。GbEボンディングは次世代ネットワーク (10GbE) が普及するまでの過渡期を乗り切る技術のようです。

10GbEボンディング

 ネットワークボンディングの有用性は10GbEでこそ発揮されます。計算機の高速化と大容量化は今後も継続します。そのため計算の種類によっては10GbEでもファイル転送がボトルネックを発生させ、システムを不安定にさせる可能性があります。このような場合には10GbEによるボンディングを利用することで状況は随分と緩和される筈です。ボンディングは10GbE世代でも有効な技術です。

ファイルサーバ分散による負荷分散の種類

ファイルサーバの負荷分散

 複数のファイルサーバを用いたファイルサーバの負荷分散では、ネットワークのボトルネックが負荷分散されシステムの応答速度が向上するという効果が得られます。複数のファイルサーバを用いたファイルサーバの負荷分散は、システムの成長に伴い自然に行われているものです。システムの成長に伴うファイルサーバの高度化はつぎのような順番で自然に進みます。

1.ファイルサーバの導入
2.水平方向の負荷分散
3.垂直方向の負荷分散

 この過程を整理し積極的にファイルサーバの負荷分散を行うことで、高速で信頼性の高いシステムの構築目指します。

ファイルサーバの導入 (管理サーバとファイルサーバを兼用)

 利用している計算機の台数が増えると管理の手間が増えます。そこでファイルサーバを導入し、各マシンに分散していたファイルを集約することで合理的な管理と無駄の削減を行います。最初はマスターサーバを一台導入し、その上に管理サーバとファイルサーバを一緒に搭載した構成が一般的です。

ファイルサーバの水平方向の負荷分散 (1台目の専用ファイルサーバ)

 計算機の台数が増えるとファイルサーバへのI/Oが急増し応答速度が遅くなることがあります。そこで、ファイルサーバを新設しユーザデータを新サーバに移動させます。元のマスターサーバに残されるのは管理サーバと共用データ用のファイルサーバです。ファイルサーバを水平方向に負荷分散することによりユーザ・データ用のファイルサーバが遅くなっても、マスターサーバ側のファイルサーバ機能と管理サーバ機能は正常に動作し続けます。HPCクラスタシステム全体はより安定して動作するようになります。

ファイルサーバの垂直方向の負荷分散 (2台以上で構成するファイルサーバ)

 さらに計算機の台数が増えると1台のファイルサーバでは負荷に対応できないことがあります。このような場合にはファイルサーバを追加して負荷分散を行います。分割方法としては、ユーザのグループ化、計算機のグループ化、アプリケーションのグループ化、ファイル種類のグループ化、搭載するファイルの重要でのグループ化などが考えられます。これらのグループ化の特徴と計算の状況を見極めて利用してください。また、ファイルサーバを設計する際にはバックアップの作成についても併せて考慮することをお勧めします。

接続形式別のバックアップの転送性能と約1日でリストアできる容量

 ファイルサーバ運用の基本は定期的にバックアップを取ることです。ファイルサーバの容量が大きくなると定期的な差分バックアップを取ることが出来ても、レストア作業に長い時間がかかるようになります。ファイルサーバの運用を考える際には、現実的な時間の範囲内でレストアできる容量を知っておくことは意味があります。

 ここでのフィル転送速度は条件が良い場合を想定しています。実際はファイルの配置が乱れていたり、他のプロセスが動作しているなどが考えられますから、速度は低下すると考えてください。

「常用データ」と「一時データ」で分割しファイルサーバを分割

 HPCクラスタで使用するデータは「常用データ」と「一時データ」2種類に区分できます。

 「常用データ」とは、オリジナリティーが高い、再生が不可能、長期保存が必要、利用頻度が高い、というような特徴を持つデータです。このようなデータに適したファイルサーバは、高い信頼性、並みの速度、並みの容量、というような構成が求められます。またバックアップは、より幅広い冗長性が求められるのでサーバ単位での冗長化が理想です。それが難しい場合はRAIDコントローラ単位の冗長化を考えてください。

 「一時データ」とは、オリジナリティーは低い、別に存在するオリジナルからの複製が可能、計算機を用いた再生が可能、利用後は消去、というような特徴を持つデータです。このようなデータに適したファイルサーバは、並みの信頼性、高い速度、大きい容量、というような構成が求められます。またバックアップは、速度が求められるのでRAIDコントローラ単位の冗長化が理想です。それが難しい場合はSASポート単位での冗長化を考えてください。

HPCの「常用データ」用ファイルサーバ

「常用データ」で必要なファイルサーバ容量

 「常用データ」とは、オリジナリティーが高い、再生が不可能、長期保存が必要、利用頻度が高い、というような特徴を持つデータです。このようなデータに適したファイルサーバは、信頼性は必要、速度は速い方が良い、容量は並みでよい、というような特徴を持つ構成です。

「常用データ」最適なRAID10サーバの4TB仕様

 4TB程度の容量であれば2TBディスク5個で構成したホットスペアディスク付きのRAID10が最良です。RAID10ならディスクが故障した場合は自動的に無停止で迅速に復旧します。さらにシステムディスクはRAID10とは独立したRAID1ボリュームを構築し利用することをお勧めします。ディスクの総数が8個以下なので、単体のサーバ筺体に内蔵するディスクだけで構築が可能です。単体筺体の中に全ての部品を内蔵することで部品点数を抑え、配線も筺体内部で完結するため、高い信頼性を持ちます。

「常用データ」最適なRAID6サーバの6TB仕様

 さらに容量と速度を求める場合は、2TBディスク6個で構成したホットスペアディスク付きのRAID6による6TBの構成をお勧めします。この構成なら万一ディスクが障害を起こすと、即座にホットスペアディスクを組みこんでリビルトが自動的に開始され、最短時間で冗長性が回復します。この構成でもRAID1システムディスクは必須です。単体筺体で完結させる構成も踏襲してください。信頼性が低下しません。

「常用データ」はバックアップが大切

 「常用データ」にはHPCクラスタ全体を運転するために必要なデータが含まれています。「常用データ」用のファイルサーバが破損することは許されません。もし万一破損した場合は迅速かつ確実な復旧が求められます。ハードウェアの破損とは別に誤操作などからデータを失う事故に対する対策も必要です。万一に備えてバックアップは必須です。さらにバックアップ先からのリストアも十分に高速でなければなりません。そのためには10GbE ネットワークが必要です。「HPC-ProSwitch DPc8024F」は最適のスイッチです。

「常用データ」用のファイルサーバは管理サーバと兼用

 一台のマスターサーバを、「常用データ」用のファイルサーバと、管理サーバとで兼用できます。現在のXeon (Nehalem)は十分に高速です。コア数もHT (Hyper-Threading Technology) を起動しておけば最大16スレッドまでの同時処理が可能です。計算機には大量のメモリも搭載できます。ネットワークもDual-10GbE SFP+ NICのオプションが用意されており十分に高速です。さらに開発ノードしてコンパイラを動作させることも問題ありません。「常用データ」用のファイルサーバを設えることは大きなコストアップにはなりません。

HPCの「一時データ」用ファイルサーバ

HPCの「一時データ」

 「一時データ」とは、別に存在するオリジナルからの複製、再生が可能、一時利用しその後は消去、というような特徴を持つデータです。このようなデータに適したファイルサーバは、信頼性は普通、速度は速い、容量は大きい、というような特徴を持つ構成です。

観測データ

 「一時データ」の例としては観測装置や計測装置から出力されるデータがあります。これらのデータはオリジナルをデータアーカイブ装置などで保管しています。データ処理を行う場合はデータをアーカイブ装置からファイルサーバに移して処理を行います。処理が完了すると完成データを次の過程に引き渡し、元データを消去します。

計算結果の一時データ

 他の例としては科学技術計算で生成される大量の結果データがあります。計算結果データから有用なデータを抽出するまでの間、一時的にデータを保存する場合があります。

冗長化によるデータの復旧

 ファイルサーバに障害が発生しデータが失われても、その部分をオリジナルから再読み込みするか、あるいは再計算することでデータを復元することができます。しかし、データの容量が数十テラバイトから数百テラバイトと達することもあります。この容量になるとオリジナルを再読み込みしたり再計算するためには長い時間とコストが掛かります。たとえ「一時データ」用のファイルサーバであるても冗長化の高さが求められます。

「一時データ」用ファイルサーバの構成

  「一時データ」用のファイルサーバは容量と速度が優先されます。

参考 (各接続デバイス別の転送速度と実用的容量)

RAIDについて

RAID6により実現する可用性を持った大容量ボリューム

 「一時データ」用ファイルサーバでRAID6を採用するメリットは可用性と大容量ボリュームを両立出来る点にあります。RAID6は最大で32基のディスクを一括して取り扱うことができます。2TBディスクを用いると64TBのボリュームサイズを実現できるということです。またRAID6は万一ディスクに障害が発生しても運転を継続できます。大規模なシステムでは複雑なデータ処理を行っていることが多く、不用意なシステムダウンは余分な手間とリスクを発生させます。RAID6なら万一ディスクが障害を起こしてもアプリケーションを正常に停止させてからシャットダウンを正常に行えます。しかし、巨大なボリュームサイズを持つRAID6は、RAIDのリビルトに長い時間が掛かるという課題を持っています。アーカイブシステムからの再ステージングや元データからの再計算よりは容易ですが、それでもデータサイズによってはリビルドのために何日間も必要となる事態は好ましくありません。

再構築時間が短いRAID10の長所と短所

 再構築時間の短さに着目するとRAID10は優れたRAIDポリシーです。RAID10は利用しているディスクの台数に関わらず再構築時はRAID1の再構築時間で完了します。RAID10は階層構造を採用しているRAIDポリシーです。下位のRAID1によって可用性を実現し、上位のRAID0によって速度と容量を実現しています。下位のRAID1と上位のRAID0は相互に独立しています。その結果、RAIDの再構築はRAID1部分の再構築に限定して行われるからです。ただ残念なことに、弊社で利用しているRAIDコントローラはRAID10で利用できるディスクの本数に16台までの制限が設けられています。その結果、2TBのディスクを利用しても16TBが最大ボリュームサイズになります。これ以上の容量を求める場合は、複数ボリュームを構築し、データを水平方向に分散して利用する必要があります。

再構築時間が短くしかも大容量ボリュームを実現できるRAID60

 RAID10と同種の階層的なRAIDポリシーとしてRAID60が知られています。RAID60は巨大なRAID6ボリュームを小粒のRAID6ボリュームしたうえで、RAID0により複数のボリュームを一本化し大容量ボリューム実現しています。RAID60は下位のRAID6によって可用性を実現し、上位のRAID0によって速度と容量を実現しています。RAID60はRAID10と比較するとより大きな容量を実現できます。修復時間はRAID10は及びませんがRAID6よりは高速です。RAID60はRAID6と比較すると、ディスクが障害を起こした場合にRAIDの再構築が分割された分だけ短時間で完了します。

RAID60の長所を活かした用途

 RAID60は短時間で修復が完了するため、アプリケーションの停止やシステムのシャットダウンを避けることができます。もちろん、修復に成功すれば面倒なデータの再ステージングや再作成は必要ありません。何事もなかったように運用を継続していただけます。これがRAID60の長所です。

RAID60の構成方法

 RAID60は構成によって可用性と経済性のバランスをコントロールすることができます。復旧時間を優先する場合はRAID6で用いるディスクの数を少なくします。短時間で復旧できる代償としてパリティーに費やすディスクの台数が増えます。反対に、容量を優先する場合はRAID6で用いるディスクの数を多くします。パリティーに費やすディスクの台数が減りますが、その代償として復旧時間が長くなります。しかし繰り返しになりますが、RAID60の長所は復旧時間の短縮にあります。ですからRAID6で用いるディスクの数を少なくした構成の採用をお勧めします。

RAID60の推奨構成

 RAID6部分の推奨構成としてはディスクを8基用い、データ用に6基、パリティー用に2基を割り当てた構成が良いと思います。2TBのディスクを用いると12TBのボリュームを構成できます。修復時のデータ転送速度を200MB/sと仮定すると、約16時間で修復が完了すると予測できます。この修復時間はRAID60の総ボリュームサイズが巨大になっても変化しません。

 このRAID6セットを元にしたRAID60構成を考えてみます。ディスクを40基用いて5セットの12TB RAID6ボリュームを作成し、これをRAID0で結合することにより総容量60TBのRAID60ボリュームを構成できます。この構成のメリットを活かすためにもホットスペアディスクは是非とも搭載してください。ホットスペアディスクを搭載していることで、ディスクが障害を起こした場合は自動的にRAID6のリビルトが始まり比較的短時間で修復が完了します。

RAID60のシステムに必須の10GbE

 この素晴らしいRAID60の高い可用性、速い速度、大きな容量を活かすためにはネットワークの10GbE化は必須です。10GbEの普及がRAID60利用の門戸を開いたと考えられます。

システム構築技術の階層的な利用

 計算機の性能向上と容量の拡張は止まることがありません。それに追従してゆくためには階層的なシステム構築技術の利用が大切です。階層性を守ることで技術のポータビリティーが維持されます。このページで述べた各技術は階層的な導入が可能です。ネットワークボンディング、ファイルサーバの水平方向の負荷分散、ファイルサーバの垂直方向の負荷分散、10GbEなどは技術の階層構造に従って開発されているため全てを複合的に利用できます。その結果、対応レンジの広いシステムの構築が可能になります。

480Gbpsのバックプレーンを持つ24ポート10GbEスイッチ

搭載コア数を増加させ高速化してゆく計算機

 これまで念頭に置いていたサーバはXeon (Nehalem) 2ソケット 8コア機です。しかし近い将来、より高性能なコアの登場や、より多くのコアを搭載した計算機の登場などアナウンスされています。2ソケット機では12コア機や16コア機が登場し、4ソケット機では24コア機や32コア機などが登場するようです。さらにその先には64コア機の登場も可能性がありそうです。搭載されるメモリ帯域幅も何倍にも高速化されるようです。メモリ容量は1TBを目指して拡張されてゆく模様です。現在クラスタ計算機で行っているような計算が単体の計算機で実現可能になります。しかもMPI化されていないアプリケーションでもOpenMPを用いて容易に並列化されるので、利用できるアプリケーションの幅が広がります。

HPCクラスタの標準スイッチはフル10GbEの時代に到達

 このように、今後のHPCクラスタの計算ノードは、急激に高速化と大容量化の勢いを強めます。その結果、ネットワーク機器の選択においてはポート数の多さよりも、各ポートの性能の高さが重要になります。この観点からも24ポートながらも全てのポートが10Gbpsの転送性能を持ち、480Gbpsと高いバックプレーンを備えた「HPC-ProSwitch DPc8024F」は、今後のHPCクラスタの標準スイッチとして高く評価されると考えられます。

480Gbpsの高速バックプレーン

 これからのHPCクラスタは、多数の高速・大容量な計算ノードを持ち、「常用データ」用ファイルサーバ、「一時データ」用ファイルサーバ、管理サーバ (兼バックアップサーバ) が組み合わされ、全体が10GbEで接続されたシステムが理想です。これらは全てネットワークスイッチのバックプレーン上で動作します。そのため、バックプレーンが十分に高速である必要があります。「HPC-ProSwitch DPc8024F」のバックプレーンは480Gbpsの帯域を持ち、従来のGbE 24ポートスイッチの持つ48Gbpsと比較すると10倍もの性能を持っています。この高い帯域幅を持つバックプレーンが全ての基盤となります。