HPC-ProServer DPe1950V
8コア並列演算性能を大幅に向上させた45nm Xeon搭載
1Uサイズに8コアを高密度搭載し、安定稼動を達成
HPCで実績あるIntel 5000Xチップセットを採用
ヒートパイプ付き高効率ヒートシンクを採用
安定動作するDDR2 667MHz FB-DIMMを採用
InfiniBandの搭載実績と安定稼動実績を豊富に持つ
2基のホットプラグディスクが内蔵できRAID1にも対応
Intel開発環境を設定済みで納入可能 (Fortran、C、Intel-MPI、数値演算ライブラリなど)
標準Linux (CentOS) 搭載、LSF搭載、システム全般のセットアップ、安心の管理ツール搭載
3年間の長期保証 (翌営業日オンサイト保守、部品保証、技術・運用支援) (最長5年まで延長可)
HPC-ProServer DPe1950IIIは1UラックサイズのXeon 2CPUサーバです。Quad-Core Xeonを2基搭載することで8CPUコア機を実現できます。HPCクラスタを構成するためラック搭載では、現実的に32台/ラック構成で、256CPUコアに到達し、高い実装密度となります。
搭載できるプロセッサは45nmプロセスで製造されるPenrynコアを採用したQuad-Core Xeon 5400番台 (Harpertown)です。FSB1333MHzで動作し、CPUクロック周波数は最高で3.16GHzに達し、搭載キャッシュサイズは最高で12MB (6MB x2)と随所で向上していますが、消費電力は120Wに留まっています。
消費電力性能比の向上はプロセッサの改良に留まらず、エネルギー効率に優れた電源装置の採用、システム全体の電源管理の実施も行われています。
8本のメモリスロットを持ち、4GBのメモリモジュールを用いることで32GBの大容量メモリを構成できます。
大容量メモリーを搭載した計算機を長時間連続動作させ結果を求めるHPC計算では、安定した計算機の稼動を実現するためメモリーエラー対策が必須です。その対策を考えるため代表的な3種類のメモリーエラーを示します。1種類目は「初期不良」によるメモリーエラーです。これは半導体ウエハ処理工程で発生した欠陥や不具合が、半導体メーカーのスクリーニングを通り抜け潜在的不良として残されたまま製品化され、その潜在的不良が使用開始後に顕在化しメモリーエラーを引き起こしているものです。2種類目は「経年劣化」によってメモリ不良が発生しメモリーエラーを引き起こしているものです。3種類目は「ソフトエラー」と呼ばれるメモリーエラーです。これは宇宙線が原因で偶発的にメモリー値が反転する非破壊的なシングルビットエラーです。
「初期不良」メモリをスクリーニングする最良の手段は、組み立てが完了したHPC計算機上でLinpack HPLなどの負荷の高い計算を連続動作させ、メモリエラーが発生しやすい条件で十分な試運転を行うことです。試運転中にメモリエラーが発生するとエラーはECCメモリにより自動修復され、同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると初期不良メモリと判断し、早期部品交換を行い計算機の信頼性を回復させます。
何ヶ月も安定動作していた計算機のメモリが突然エラーを発生させることがあります。このような場合でもECCメモリを使用しているとエラーは瞬時に訂正され動作は継続されます。同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると不良メモリと判断し、致命的な障害を起こす前に早期部品交換を行います。
「ソフトエラー」と呼ばれる宇宙線が原因で非破壊的にメモリ値が反転するシングルビットエラーも稀に発生するようです。このような「ソフトエラー」対策としてはECCメモリの搭載が最善です。ECCめもりによりシングルビットエラーが発生しても何事も無かったように動作が継続され実害は発生しません。
大容量1TBのディスクサイズをサポートしており、最大で2個搭載でき、2TBの容量を実現できます。
HPCクラスタ用の計算機としてPCI-EバスはInfiniBandによるシステムインターコネクトの実装をするために重要です。
HPC-ProServer DPe1950IIIは堅実な熱設計が施されています。参考として筐体内部の写真を掲載します。注目していただきたいのは筐体の中央に整然とレイアウトされた4組16基のファンです。CPUのヒートシンクはヒートパイプにより表面積を横方向に倍化されることで、各CPUに対し8基のファンを割り当てることができ、冷却性能に十分な余力を持ちます。そのため、通常時は比較的低い回転数でも十分な冷却性能が得られ、低騒音運転をも実現しています。さらに高負荷や外気温上昇などによりCPU温度が上昇すると、ファンの回転数を一時的に速くして一気に冷却することができます。CPUを冷やした排気はその後、メモリ、チップセット、増設カード、電源を効率良く冷やすため整流ダクトで割り振られ無駄なく利用されています。この優れた熱設計により、ラックへ高密度実装を行っても発熱による障害を回避できるような配慮がされています。
実際にHPCクラスタとしてラッキングする際には、ノード間に適度な空間を設け熱集中を避けるようなレイアウトを実施しています。HPC用途では実装密度を過度に高めても、空調が対応できなくなることが多いのでお勧めできません。目安としてはラック1台で、32node 64CPU 256core程度が限度だとお考え下さい。
HPCクラスタを構築する場合に重視すべきことはノードの安定稼動です。HPC-ProServer DPe-1950は多数の安定稼動実績を持ち、お客様から高く評価されている信頼性の高い製品です。このDPe-1950の実績をベースにして改良された製品がDPe1950IIIです。過去1年間にHPC-ProServer DPe1950 (II) を導入され、その安定稼動を実感されたお客様は異口同音に、「安定稼動するシステムこそは良いと思います。」とご感想を述べられています。そこで、特に追加導入される際に、「今回の選定でもシステムの安定稼動は重視している。」とのことです。
システム構築する側にとってもハードウェアの安定稼動は、SE作業の品質を大きく左右するため、非常に重視しています。限られた時間の中でシステムを完成させるため、ハードウェアが素早く安定すれば、多くの時間をシステム構築のブラッシュアップに投入できます。
HPCテクノロジーズの経験によりHPCに最適化したCentOSを搭載しています。(標準的なLinux OSはHPC利用を考慮していません。) 最適化作業としては、HPCで必要となるパッケージの追加、HPCで不要なデーモンやサービスの停止、HPCで必要なデーモンやサービスの起動、開発環境などとのマッチング、アプリケーションの動作検証などです。
■ CentOSとRedHat
■ LinuxでのHPCチューニングの必要性
商用アプリケーションなどではLinux OSのディストリビューションを指定されることがあります。そこでRedHatにオプション対応しています。もちろん、コンパイラなどの緻密なバージョン指定にも対応しています。
8CPUコアを搭載するシステムを共同利用する際には、利用効率と利便性を向上させる負荷分散システムの搭載が必須です。そこで、大型のUNIX並列計算機で圧倒的な動作実績を誇るPlatform LSFを標準搭載しています。LSFは適切なジョブスケジューリングを、並列度、CPU負荷、メモリ利用状況、ライセンス状況、他ノードの負荷状況などを考慮したうえで実施します。これらの要素への配慮に関してLSFの完成度は圧倒的な高さを持っており、他のスケジューラとは比較になりません。
最新のハードウェアを利用するには、適切な開発環境の選択と、整然としたインストールが必須です。標準的なインテルコンパイラのみならず、お客様のご用途に合わせてIntel-MPI、Inte-MKL、パフォーマンス・チューニングツール類、PGIコンパイラなどの最適なインストールサービスも実施します。もちろん、ライセンスサーバにも対応します。また、GbEやInfiniBandにも適応した開発環境のカスタマイズも実施します。
8並列計算が可能になったことで、ネットワーク並列では対応できなかった計算の並列度を向上させることができます。また、32GBの大容量メモリを必要とする計算にも対応できます。このような計算環境を要求するアプリケーションの搭載と運用をサポートする予定です。
ディスク障害や誤操作などによりOSが正常に利用できなくなるようなトラブルに際して、OSの復旧を簡単かつ確実に行えるように「OSリカバリDVD」を添付しています。弊社の「OSリカバリDVD」は、弊社工場でお客様に納入する計算機のカスタム設定が完了した時点で、そのシステムイメージをフルコピーするものです。そのため、「OSリカバリDVD」を用いると出荷時の状態に確実に復旧できます。さらに導入後のシステム設定変更やアプリケーション追加をされた場合にも、簡単に新たな「OSリカバリDVD」を作成できるように、簡単なコマンド操作で任意のタイミングの「OSリカバリDVD」のISOイメージを作成することが可能です。
システムには「Dell OpenManage」という総合システム監視/管理ツールが搭載されています。このツールは、計算機本体にとどまらず外部接続されたDASストレージの内部ディスクドライブまで、一元的に監視したり操作できます。また、強力な障害解析機能を持ち、障害箇所が交換部品のレベルにまで細かく切り分けて表示されます。また、障害の履歴も残ります。例えば、メモリがECCエラーとを起こすと、どのスロットのメモリがエラーを起こしたかまで判ります。しかもECCでエラーが自動修復されていても、履歴が残っているので簡単に参照できます、なお、このツールはリモートからブラウザ経由でも利用できます。
「HPC-ProServer DPe1950III」は2CPU 8並列のHPCサーバとしてのシステム構築が期待されます。そこで、弊社ではお客様の計算機や開発環境、オプションツール類、アプリケーション類などの導入調査などを可能な限り行い、快適な利用環境の実現に努めます。これらのインテグレーション作業をお客様が単独で実施されるには手間と時間が必要です。HPCテクノロジーズはこのようなお客様のご要望に応えるべく対応しています。
一般に大手ベンダー製サーバは市販サーバに比べて量産開始判断が慎重です。実はこのタイムラグこそ品質管理の最後の砦であり、徹底的なバリデーションなどが行われている期間です。全ての問題がクリアされた製品は、生産を一挙に立ち上げることができます。そして弊社工場では実運用レベルのテストと改修を行い、さらに仕上には納入後の動作確認、不具合箇所の特定、迅速なオンサイト改修までを一連の工程として実施しています。
「HPC-ProServer DPe1950III」は、標準で3年間の当日/翌営業日オンサイト保守が無償実施されます。万一の障害でもお客様の手を煩わせることなく、HPCテクノロジーズの技術スタッフとオンサイト修理スタッフが協力して障害切り分け作業を行い、迅速かつ確実な復旧を実現します。