HPC-ProServer DPe2950V
8コア並列性能が大きく向上した45nm Xeon搭載
冷却性能と拡張性に優れた2Uサイズ筐体により安定動作
HPCで安定稼動するIntel 5000Xチップセットの搭載
動作が安定しているDDR2 667MHz FB-DIMMを使用
32GBの大容量メモリを搭載、安定動作を達成
1TBディスクを6基搭載でき高速スクラッチディスクを構築可能
高性能なIntel開発環境を搭載、LSFライセンスを標準バンドル
標準LinuxOS (CentOS) を搭載、システム設定とネットワーク設定を実施
3年間無償保守 (翌営業日オンサイト保守、修理部品保証、技術・運用支援)
「HPC-ProServer DPe2950III」は2Uサイズと余裕ある筐体によるメリットが光る計算機です。2Uサイズの筐体は拡張性が高く、大容量メモリや大容量ディスク、高速ネットワークなどを搭載してもスペースに余裕があります。さらに、2Uサーバは広い開口部と大容量冷却ファンにより発熱量の大きな高速デバイスを強力に冷却し長期安定稼動を実現します。
これに対して1Uサーバは、マルチコアCPUが主流の現在では実装密度の高さによる弊害が課題となっています。高負荷連続稼動が必須のHPCでは熱問題が深刻です。ラック重量の増加による設置場所の制約も問題です。ところが2Uサーバでは、高速CPUと大容量メモリ、InfiniBandなどを搭載しても内部スペースに余裕があるため適切な冷却が実現できます。
また重量面でも、42Uラックに2Uサーバを16台搭載すると1台の重量を20kgとして320kgです。ここにラック他の機材の重量を100kgと仮定して追加すると、総重量は500kg弱となり一般的な設置場所での実用的な上限に達します。
「HPC-ProServer DPe2950III」に搭載するプロセッサは、45nmプロセス採用のXeon 5400番台 (Harpertown) あるいはXeon 5200番台です。このXeon 5400番台/5200番台のプロセッサは、コア内部の浮動小数点演算器の改良、CPUクロック速度の高速化、搭載キャッシュサイズの12MB (6MB x2) への大容量化などにより、浮動小数点演算性能と並列処理性能が共に改善されています。この効果は実際のアプリケーションでも幅広く確認されています。
「HPC-ProServer DPe2950III」は製品開発から使用部品、製造過程、保守部品、保守サービスまでの全体が一貫して管理されています。さらに製造過程でも出荷後でも不具合が報告されると、その情報は全体で共有され、迅速に生産やサポートの現場に反映されます。そのため、万一の不具合も迅速に改善され、高品質な製品が提供されます。
大容量メモリーを搭載した計算機を長時間連続動作させ結果を求めるHPC計算では、安定した計算機の稼動を実現するためメモリーエラー対策が必須です。その対策を考えるため代表的な3種類のメモリーエラーを示します。1種類目は「初期不良」によるメモリーエラーです。これは半導体ウエハ処理工程で発生した欠陥や不具合が、半導体メーカーのスクリーニングを通り抜け潜在的不良として残されたまま製品化され、その潜在的不良が使用開始後に顕在化しメモリーエラーを引き起こしているものです。2種類目は「経年劣化」によってメモリ不良が発生しメモリーエラーを引き起こしているものです。3種類目は「ソフトエラー」と呼ばれるメモリーエラーです。これは宇宙線が原因で偶発的にメモリー値が反転する非破壊的なシングルビットエラーです。
「初期不良」メモリをスクリーニングする最良の手段は、組み立てが完了したHPC計算機上でLinpack HPLなどの負荷の高い計算を連続動作させ、メモリエラーが発生しやすい条件で十分な試運転を行うことです。試運転中にメモリエラーが発生するとエラーはECCメモリにより自動修復され、同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると初期不良メモリと判断し、早期部品交換を行い計算機の信頼性を回復させます。
何ヶ月も安定動作していた計算機のメモリが突然エラーを発生させることがあります。このような場合でもECCメモリを使用しているとエラーは瞬時に訂正され動作は継続されます。同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると不良メモリと判断し、致命的な障害を起こす前に早期部品交換を行います。
「ソフトエラー」と呼ばれる宇宙線が原因で非破壊的にメモリ値が反転するシングルビットエラーも稀に発生するようです。このような「ソフトエラー」対策としてはECCメモリの搭載が最善です。ECCめもりによりシングルビットエラーが発生しても何事も無かったように動作が継続され実害は発生しません。
2Uサイズの筐体を持つことでディスクを6個まで搭載できます。管理サーバとし利用する場合にはRAID10構成を採用することで高い信頼性を実現できます。構成例としては、500GB、750GB、1TBディスクを5基用いたRAID10 + スペアディスク構成を推奨します。この場合にはシステムディスク領域は80GB x2によるRAID1構成にすることで高い可用性を実現します。
計算サーバとして用いる場合には、大容量・高速スクラッチディスクを構築できることが魅力です。構成例としては、250GBディスク5個をRAID0化し1.25TBのボリュームを構成し、さらにパラメーターチューニングを施し高速化できます。
2Uサイズと余裕のある筐体のため、3枚の拡張カードが搭載でき、HPCクラスタの管理サーバとしての利用に適します。不足しがちなディスク容量に対してはSAS接続のRAIDコントローラPERC6/Eを搭載することで、最大90TBの容量まで拡張可能です。さらに、GbEカードや10GbEカードなどを実装可能です。
HPC機としての速度・信頼性・使いやすさを高次元で融合させるHPCシステム設計には、長年の蓄積データを基に開発された、HPCテクノロジーズ独自のHPC構築パッケージ「HPC-ProCluster」を採用することで高性能・高機能の計算機開発を実現しています。
HPCテクノロジーズの経験によりHPCに最適化したCentOSを搭載しています。(標準的なLinux OSはHPC利用を考慮していません。) 最適化作業としては、HPCで必要となるパッケージの追加、HPCで不要なデーモンやサービスの停止、HPCで必要なデーモンやサービスの起動、開発環境などとのマッチング、アプリケーションの動作検証などです。
■ CentOSとRedHat
■ LinuxでのHPCチューニングの必要性
商用アプリケーションなどではLinux OSのディストリビューションを指定されることがあります。そこでRedHatにオプション対応しています。もちろん、コンパイラなどの緻密なバージョン指定にも対応しています。
8CPUコアを搭載するシステムを共同利用する際には、利用効率と利便性を向上させる負荷分散システムの搭載が必須です。そこで、大型のUNIX並列計算機で圧倒的な動作実績を誇るPlatform LSFを標準搭載しています。LSFは適切なジョブスケジューリングを、並列度、CPU負荷、メモリ利用状況、ライセンス状況、他ノードの負荷状況などを考慮したうえで実施します。これらの要素への配慮に関してLSFの完成度は圧倒的な高さを持っており、他のスケジューラとは比較になりません。
最新のハードウェアを利用するには、適切な開発環境の選択と、整然としたインストールが必須です。標準的なインテルコンパイラのみならず、お客様のご用途に合わせてIntel-MPI、Inte-MKL、パフォーマンス・チューニングツール類、PGIコンパイラなどの最適なインストールサービスも実施します。もちろん、ライセンスサーバにも対応します。また、GbEやInfiniBandにも適応した開発環境のカスタマイズも実施します。
8並列計算が可能になったことで、ネットワーク並列では対応できなかった計算の並列度を向上させることができます。また、32GBの大容量メモリを必要とする計算にも対応できます。このような計算環境を要求するアプリケーションの搭載と運用をサポートする予定です。
ディスク障害や誤操作などによりOSが正常に利用できなくなるようなトラブルに際して、OSの復旧を簡単かつ確実に行えるように「OSリカバリDVD」を添付しています。弊社の「OSリカバリDVD」は、弊社工場でお客様に納入する計算機のカスタム設定が完了した時点で、そのシステムイメージをフルコピーするものです。そのため、「OSリカバリDVD」を用いると出荷時の状態に確実に復旧できます。さらに導入後のシステム設定変更やアプリケーション追加をされた場合にも、簡単に新たな「OSリカバリDVD」を作成できるように、簡単なコマンド操作で任意のタイミングの「OSリカバリDVD」のISOイメージを作成することが可能です。
システムには「Dell OpenManage」という総合システム監視/管理ツールが搭載されています。このツールは、計算機本体にとどまらず外部接続されたDASストレージの内部ディスクドライブまで、一元的に監視したり操作できます。また、強力な障害解析機能を持ち、障害箇所が交換部品のレベルにまで細かく切り分けて表示されます。また、障害の履歴も残ります。例えば、メモリがECCエラーとを起こすと、どのスロットのメモリがエラーを起こしたかまで判ります。しかもECCでエラーが自動修復されていても、履歴が残っているので簡単に参照できます、なお、このツールはリモートからブラウザ経由でも利用できます。
「HPC-ProServer DPe2950III」は2CPU 8並列のHPCサーバとしてのシステム構築が期待されます。そこで、弊社ではお客様の計算機や開発環境、オプションツール類、アプリケーション類などの導入調査などを可能な限り行い、快適な利用環境の実現に努めます。これらのインテグレーション作業をお客様が単独で実施されるには手間と時間が必要です。HPCテクノロジーズはこのようなお客様のご要望に応えるべく対応しています。
一般に大手ベンダー製サーバは市販サーバに比べて量産開始判断が慎重です。実はこのタイムラグこそ品質管理の最後の砦であり、徹底的なバリデーションなどが行われている期間です。全ての問題がクリアされた製品は、生産を一挙に立ち上げることができます。そして弊社工場では実運用レベルのテストと改修を行い、さらに仕上には納入後の動作確認、不具合箇所の特定、迅速なオンサイト改修までを一連の工程として実施しています。
「HPC-ProServer DPe2950III」は、標準で3年間の当日/翌営業日オンサイト保守が無償実施されます。万一の障害でもお客様の手を煩わせることなく、HPCテクノロジーズの技術スタッフとオンサイト修理スタッフが協力して障害切り分け作業を行い、迅速かつ確実な復旧を実現します。