お客様は、企業の研究所の方です。現在もLinux計算機を利用されており計算の手応えは把握されています。今回は最新のCPUを搭載した本格的なHPCクラスタを新規導入することで、高い計算スループットを持ち、多数のジョブの逐次投入が可能な仕組みを実現したいとのことでした。(並列処理による計算速度の向上も視野に入っているそうですが、今回はスループットの向上を優先されるとのことでした。) また、CPU数の増加に対応してアプリケーションのライセンス数の追加導入されるそうです。今回は最初のHPCクラスタの導入となるため安心して導入できることは重要であり、HPCクラスタベンダーの製品品質、技術力、運用支援、サポート品質などが総合的に優れている必要があると話されていました。
お客様はMaterials Studio®のDMol3を中心に利用されています。DMol3のほかにはWIEN2kも利用され、固体分野の研究開発を行われているそうです。さらにGaussianやGAMESSなどのアプリケーションもご使用とのことですが、有機分野の計算は量的には少ないそうです。
クラスタシステムの使い方として実験を補助するようなシミュレーションではなく、シミュレーションによる研究開発を実験よりも先行させるスタイルを取り、今後の研究開発を行う分野の先行調査の役割を担っていくとのことでした。
今回のクラスタシステム導入により計算機環境が増強されるためDMol3、WIEN2kの利用にとどまらず、利用するアプリケーションの種類を増やして幅広くシミュレーションができる環境を構築してゆく方針だそうです。
お客様によると、DMol3は並列計算をすることでのメリットが大きいアプリケーションとのことです。そのために、最適なハードウェア構成を確かめるためのテストも行われたそうです。その結果、現時点ではQuad-Core Xeon 2CPU 8コア環境では並列度を高くすると性能向上率が伸び悩む傾向が確認され、それならばDual-Core Xeonを用いてCPUクロックを向上させたDual-Core Xeon 3.0GHzを搭載したサーバでのクラスタシステムをご希望されていました。
お客様は、Linux計算機の利用経験はお持ちですが本格的なHPCクラスタの導入は初めてのため、HPCクラスタ構築での総合力に優れた安心できるベンダーを選びたいとのことでした。ただし大手ベンダーは、ハードウェア品質が高くサポートも手厚く技術力も高い半面、コスト的には厳しくなることを懸念されていました。これに対して弊社は、大手ベンダーであるデル製の高品質サーバを採用し、さらにデルの強力なサポート体制を利用しながら、HPC特有の技術やサポートなどはHPCを専門とする弊社が実施することで、双方の良いところを組み合わせたコストパフォーマンスの高い仕組みを実現しています。そして、多くの導入実績があり、多くのお客様から高い評判を頂戴している例や、無償の3年間のオンサイト「W保守サービス」などに関しても具体的にお伝えしました。その結果、お客様から提案をしてほしいとのご返答をいただけました。
お客様から教えていただいたDMol3の動作特性を踏まえて、計算機部分はDual-Core Xeon 3.0GHz 2CPU 4コアを搭載した1Uサーバ HPC-ProServer DPe1950 1Uが4台でクラスタ化した、4node 8CPU 16コア構成としました。メモリは各8GB搭載し、システムディスクは250GBドライブを2個使用した2重化構成となっています。システムインターコネクトにはGbEを用いています。管理サーバにはHPC-ProServer DPe860を用い、ゲートウェイーサーバ、アプリケーションサーバ、ファイルサーバとして機能させています。ストレージの容量は小さめですが、これは必要に応じてSAS接続のディスクエンクロージャの追加が可能な仕様となっており心配はいりません。停電対策としてシステム全体をUPSに接続しています。これらを24Uラックに搭載しましたが11Uしか消費しておらず、将来の拡張に対しても十分な空きスペースが確保されています。開発環境はインテルFortranとMKLを搭載し、ネットワークはGbE接続です。OSはRedHat ELWS4を搭載しました。
● 計算機 4台 (Xeon 3.0GHz 4node 8CPU 16コア)
計算機: HPC-ProServer DPe1950 Xeon 3.0GHz 2CPU 4コア
メモリ: 8GB (FB-DIMM 667MHz)
システムディスク: 250GB x2 (2重化)
OS: RedHat ELWS4
● 管理サーバ 1台 (Xeon 2.13GHz 1node 1CPU 2コア)
計算機: HPC-ProServer DPe860 Xeon 2.13GHz 1CPU 2コア
メモリ: 2GB (DDR2-SDRAM 533MHz)
システムディスク: 250GB x2 (2重化)
OS: RedHat ELWS4
● 補助機器類
スイッチ: GbEスイッチ
モニター: 液晶モニター
UPS: 1500VAタイプ 2台 (全ノードに接続)
ラック: EIA 24Uラック
(計算機、管理サーバ、UPS、GbEスイッチをEIAラックへ搭載)
● 開発環境など
コンパイラ: インテルFortran
数値演算ライブラリ: インテルMKL
ジョブスケジューラー: LSF (インストールと設定)
● サポートサービスなど
ソフトウェアベンダーと協力してのアプリケーションのプリインストールサービス
オンサイトでの設置サービス
3年間の当日/翌日オンサイト「W保守サービス」
● 搭載アプリケーション
Materials Studio® DMol3
WIEN2k
お客様と仕様に関して相談を重ねるうち、上記の構成に落ち着き、ご発注していただくことができました。各コンポーネントは標準的なスケジュールで弊社工場に搬入され、迅速に組み立てやシステム設定、テストなどを行い、HPCクラスタとしての基本部分を完成させました。
HPCクラスタが完成するとソフトウェアベンダー(アクセルリス社) の技術の方が弊社工場に来社し、DMol3のインストールと動作確認を行い、完全に稼動状態に仕上げました。この動作確認にはお客様も来社され、実運用を意識したテストとなっていました。
オンサイトの設置に関して、お客様にご感想を伺うことができました。その要点を箇条書きで掲載いたします。
○ クラスタシステムがアプリケーションの動作確認まで完了した完成品の状態で納入/設置が行われたので、利用開始までの作業がスムーズに進行し、見ていて安心できた。
○ HPCテクノロジーズの工場内で行ったアプリケーションのセットアップに関するソフトウェアベンダーとの日程調整や担当エンジニアの割り当て、お客様の立会い確認などの段取りなどに関して細かく調整や対応ができており、順調なスケジュールで進行していたのも安心感につながった。
○ HPCテクノロジーズの担当者とソフトベンダーの担当者が共同で作業をしてくれており、何かしらのトラブルがあった場合にも素早く対処できる段取りが取られており、この点でも安心できた。
○ 納品のスケジュールが予定通りに行われ、納入当日には利用可能な状態に完成していたのでオンサイト作業が手際よく実現できていた。
○ クラスタの設置後に実際の利用環境にあわせてDMol3でのLSFを介したジョブ投入がハンズオンで行われ、問題なく利用できることが確認できた。
Materials Studio®はDMol3、Castepなど多数のアプリケーション群で構成されるパッケージソフトです。以下にHPCクラスタ構築に於いてのポイントをまとめておきます。
Materials Studio®でのGUI環境からのLSFへのジョブ投入に関しては、Windows専用のインターフェース・アプリケーションがあります。そのインターフェースの画面の中にはパラメータなどの指定などから、LSFへのジョブ投入なども行えるようになっています。
単にCPUのリソース管理のみならず、ライセンスの制約と計算機リソースの状況に対応した合理的なリソース管理をLSFは考慮した実装が行われています。