先端的なアプリケーションと最新の高品質な計算機が適切にインテグレーションされたHPC計算機システムが即座に利用できる状態で納入されたら素晴らしいことです。特に企業の研究所様などで利用されるHPCクラスタ機は、複数の専門性の高いアプリケーションを高度に組み合わせ利用される場合が多く、それらが安定稼動して動作する完成度の高いHPCクラスタのスムーズな提供が強く求められるようになってきています。このようなお客様の高度なご要望に対応されるソフトウェアベンダ様もまた優れた計算機ソリューションを必要とされます。そこで弊社では、ソフトウェアベンダ様に対しても、計算機環境の構築、運用環境の設定、アプリケーションビルドなどのサービスを行っております。
・ マルチコア化したCPU、大容量化したメモリ、進歩した開発環境を反映した計算機の提供
・ HPCクラスタに関する世界標準の実装技術の提供
・ 最新の計算機環境を活かしたアプリケーションのビルド
・ 高品質・高性能なファイルサーバなどの組み込み
・ ジョブ管理ソフトの適切な選定と設定
・ 優れたオンサイト保守とHPC技術サポートの提供
ここでご紹介する導入事例は、ソフトウェアベンダ様を経て企業の研究所様にお納めさせていただいたシステムです。その構成は重厚なもので、高速な並列計算機は当然として、並列計算機用の堅牢な管理サーバ/ファイルサーバの実装、そしてこれとは独立したデータ保管/利用ファイルサーバまでを一体化させた構成です。しかもこのファイルサーバは同じ構成の2台のサーバで構成されており、バックアップが取れる仕組みとなっています。そしてシステム全体はUPSに接続され停電にも安心です。さらにフロントエンド機として5台のワークステーションがありプリ/ポスト処理を担います。写真のように外観こそ大きくはありませんが、計算センター並みの重厚な実装となっています。企業の研究所様に相応しい立派なシステムです。
![]() |
![]() |
| 写真(1) | 写真(2) (カバー開) |
写真(1)は計算機部の写真です。計算機部は、5台の1Uサーバで構成される並列計算機と、1台の5Uサーバを用いた管理サーバ兼ファイルサーバ、さらに3000VAと1500VAのUPS2台から構成されています。写真(2)はその管理サーバDPe2900のフロントベゼルを外したもので、ディスクが多数搭載されている様子がわかります。以下がこのラックに搭載されている機器のリストです。
・ 24ポートGbEスイッチ
・ CPUサーバ: DPe1950 1U サーバ 5台
(Quad-Core
Xeon 5node 10CPU 40コア)
・
管理サーバ (:ゲートウェーサーバ/アプリケーションサーバ) + ファイルサーバ: DPe2900 1台
・ UPS 3000VA 1台、1500VA 1台
並列計算機はQuad-Core Xeon 2CPU 8コア搭載の1Uサーバ5台を用いて40コアのクラスタを構成し、GbEで接続されています。MPIはノード内/外の並列通信で高い並列効率が確認されているIntel-MPIを採用し、高い並列演算性能を達成しています。なお、ラックにはまだスペースがあるため、さらにCPUパワーが必要となれば簡単にノードを追加することが可能です。
並列計算機はLSFによりコアのリソースが管理されており、シリアル計算とパラレル計算が混在して流されていても、予め設定してある優先順位に応じて、自動的にリソース配分を行いジョブ投入が行われます。
計算機部のホスト機には堅牢なサーバであるDPe2900を据え、管理サーバ (ゲートウェーサーバ + アプリケーションサーバ) + ファイルサーバとして機能させています。
・ 利用者はこのゲートウェーサーバ機にログインし全ての操作を完結することができる
・ LSFが動作し、LSFにジョブを投入することで、実際の実行計算機へのジョブ割り振りはLSFが適切に行う
・ アプリケーションもこのサーバ上にインストールされ利用できる
・ これらのソフトウェアリソースは各並列計算機からNFS経由で利用できる
・ コンパイラもこのサーバ上にインストールされ利用できる
・ ストレージ部はNFS接続で並列計算機のホームディレクトリに共有されている
・ ストレージ部は堅牢なRAID10を採用している
並列計算機において管理サーバの役割は上記に挙げたように重要です。もし管理サーバが停止するとシステム全体が停止します。そのために管理サーバには堅牢性と高い可用性が必要です。
・ CPUサーバが停止しても被害は局所的だが、管理サーバが停止するとシステム全体が停止
・ 管理サーバが独立していると、計算負荷が高くなっても、管理サーバは影響されない
・ 管理サーバが独立していると、ログインやコンパイル、ジョブの投入、データの回収、整理などがスムーズ
・ ストレージ部もCPUパワーを必要とするので高速なCPUが必要
・ RAIDコントローラも良いものを選択する
・ RAID10の選択は必須
・ 電源の冗長化やディスクドライブ類のホットスペア対応も必要
・ 当日のオンサイト保守サービスや長期間の部品保証も必須
![]() |
![]() |
| 写真(3) | 写真(4) (カバー開) |
写真(3)は計算機部とは別にラッキングまでされた、独立したファイルサーバ部です。写真(4)はその外付けディスクエンクロージャのフロントベゼルを外した様子の写真です。この独立ファイルサーバ部は同一構成のDPv1000を2セット用いて構成されており、1台をメインとし、もう1台はバックアップ用として運用されています。2セットのサーバ全体はUPSに接続されており、停電の際には安全にシャットダウンが行われます。以下がこのラックに搭載されている機器のリストです。
・ DPv1000
・ DPv1000
・ UPS 3000VA 1台
計算機部のファイルサーバは、並列計算機に対するNFSサービスや、ジョブ管理、コンパイルなど各種のサービスが動作しており、その負荷は決して低いものではありません。さて、広い意味でのHPC分野でのファイルサーバ利用とは、並列計算機のホストとしてだけの利用なのでしょうか。もちろんそれだけではありません。それ以外にもファイルサーバが活躍する場所は沢山あります。計算結果や測定結果などの各種データの保管や整理、それらを利用するための各種処理などではファイルサーバは大活躍します。当然その負荷は低くはありません。
ところで、先の計算機部のファイルサーバと、このデータ保管/利用のファイルサーバは共用できるのでしょうか。実際、並列計算機の規模も小さく、データ利用の負荷も低いお客様でも、大多数の方はサーバを別々に構築されています。こうすることで、並列計算機用のファイルサーバと、データ保管/利用のファイルサーバは別々に動作し、システム全体の可用性が高くなるからです。また、I/Oも衝突するとこが少なくなり応答性も格段に向上します。ただし使い勝手を高めるため、これらのファイルサーバ同士はNFSで相互利用可能にしておく必要があります。
また、2つのサーバは独立しているので、片方のサーバが停止していても、他方のサーバは運用を継続できます。機器の保守も部分的に行うことができす。もし、クラスタ導入時に予算の余裕が見込めるなら計算機から独立したファイルサーバの導入をお勧めします。
この独立したファイルサーバは貴重なデータの保管庫としての役割があるため、データのバックアップの仕組みは必須です。バックアップの仕組みはHPC用度ではデータが大きくなるため、同一構成のサーバを用いたバックアップサーバを導入することが一番安心です。これなら、バックアップ元のサーバが故障してもバックアップ先のサーバだけでデータを利用することもできます。(リストアしなくてもデータ利用が保証されている。) 具体的なバックアップ方法はデータの定期的な差分バックアップを行い、データを二重化しています。万一ファイルサーバのデータがオペレーションミスや障害などで失われてしまった場合でも、バックアップサーバのデータ更新が行われていなければ、データの復元を行うこともできます。もし予算に余裕が取れるようなら、 バックアップサーバを最初から導入されることをお勧めします。もちろん、バックアップサーバの導入は計算機部の管理/ファイルサーバに関しても強くお勧めします。
部門レベルでの計算機導入の場合には、専用のサーバ室が用意できる場合は少なく、多くの場合は居室や実験室など、人が仕事をする場所の一部を置き場所として確保される場合も多いのが実情です。この場合にはシステムの静粛さは重要です。
写真はこのページで取り上げているシステムを負荷テストしている際に、その騒音を計測した写真です。写真をクリックで拡大すると騒音計の表示が判読できますが、59.7dBを示しています。しかも音は比較的低い音で、音質も角の取れた柔らかめの音のため、すぐ横で仕事をしていてもまったく気になりません。
居室や実験室などの人の出入りがある場所では、一定のセキュリティー対策も必要です。このEIAラックは前扉に鍵が付き、さらに各サーバのフロントベゼルにも鍵が付くため、ハード的にも2重のセキュリティー対策となっています。
このシステムでは、さらに5台のHPCワークステーションDPr490を可視化、後処理、リモート操作用の端末としてシステムに組み込こんでいます。これらのワークステーションは、計算機部のファイルサーバや、データ蓄積用の独立ファイルサーバにNFS接続されており、それらのデータを一体のものとして取り扱うことができます。また、ワークステーションのためOpenGL用グラフィックカードを実装し、可視化イメージを高速に操作できます。非常に静粛なワークステーションのため設置場所は落ち着いた場所に並べることができます。
計算機でも安全性への配慮が強く意識されるようになってきています。ラックの背丈が高くなると転倒のリスクが高まります。そこで、計算機を設置する床面積に余裕があるなら、24U程度の背の低いラックを採用することは良い選択です。今回のシステムでは、計算機部とファイルサーバ部を機能的に分割し、それぞれを24Uラックに搭載しました。搭載した機器の上にはスペースが空いていますから、リソースが不足しても機能的に機器を追加できます。また、ラックの下段には重量の重いUPSを搭載し低重心化を図っています。もしこれが背の高いラックであれば耐震工事が必要となります。
不可避の停電・瞬停に際しても安全に全サーバーをシャットダウンができるように、全てのサーバをUPSに接続しています。お客様の電源環境は100V30Aを供給できることもあり大容量の3000VAのUPSを採用しています。
・ GAMESSなどの各種アプリケーションのセットアップ
・ 各種アプリケーションの並列化ビルド
・ ジョブ管理ソフトLSF-HPCのインストールと設定
・ KVMはラックサーバーの全ノードに接続
・
モニタはラックサーバー管理用と各端末用に用意
マルチコア化しているHPC計算機では、1台であっても3年間の当日/翌日のオンサイト保守は、保守レベルとしては最低ラインです。さらに、このクラスのシステムになると、導入後の運用サポートも必要となってきます。
・ 翌営業日オンサイト「Wサポート」
ハードウェア障害時の障害箇所の切り分けも含めてオンサイトサポートにて対応
導入後1年間の運用サポート(クラスタ利用の相談対応、支援など)