お客様は理論化学系の研究室の方です。計算機環境としては、スパコンセンターの計算機と、お手元にあるPCクラスタが利用できるとのことでした。計算機の利用目的としては、独自開発のアプリケーションを用いた研究と、Gaussianなど公開アプリケーションを用いた研究の2種類に分けられるそうです。計算機は複数ユーザにより共同利用されており、アプリケーションの利用が主になっているそうです。
お手元のPCクラスタでは、アプリケーション開発とアプリケーション利用が共存する利用環境になっているそうです。このようなPCクラスタの構築には高い技術力が必要です。このクラスタを構築された方は、研究室に在籍されている方で、計算機に対して深い造詣をお持ちだと伺いました。
ところが、その担当の方が他に移られることになり、PCクラスタ関連の仕事をどのように引き継ぐかが課題として浮上してきたのだそうです。当座はシステム管理などを引き継げば対処できるとしても、新たなシステム追加や構築には専門知識を持った担当者が必要になります。しかしそれは簡単なことではありません。そこで、システム構築のアウトソーシングも含めて対応を検討されているとのことでした。
お客様のPCクラスタは、市販のタワー型PCをワイヤー棚に設置したオーソドックスなスタイルのPCクラスタです。用途はアプリケーション開発とアプリケーション利用で、システム全体を複数ユーザ毎に区分して利用されています。
PCクラスタは内部構造の完成度が高まると使いやすくなります。その主要ポイントは、アーキテクチャ / ストレージ / ネットワーク / 筐体 / OS / 開発環境 / 並列環境 / ジョブ管理環境 / アプリケーション / ライセンス管理 / 並列処理 / ファイル管理 / システム設定 / 設置 / 保守 / 障害対応 / アップグレード / 運用方針など多岐にわたります。この要素を考慮するのでシステム設計は難しくなりますが、適切に考慮されていれば使いやすくなることは明らかです。
PCクラスタは拡張性も重要です。計算機の進歩は留まることがないため陳腐化の影響を強く受けます。そこで計算機を賢く利用するためには、PCクラスタを常にリフレッシュできるように設計しておくことが大切です。システムの拡張性が高いと、ファイル共有、アプリケーション共有、開発環境共有、ライセンス共有、テムリソース共有などを適切に行うことができ、即座にPCクラスタの一部として利用できます。ここぞというタイミングで新しいノードを追加する際にも、既存の資産との整合性が保たれるので違和感がありません。
計算機の適用範囲が拡大するに従い、PCクラスタは知的資産の集積センターのような役割も負うようになっています。この機能システムの維持管理も大きな仕事です。
優れたPCクラスタを構築し拡張性や継続性に配慮されているとしても、その引継ぎは簡単ではありません。ましてシステム管理やシステム構築などのノウハウを含めて次の世代に受け渡して行くことは大きな仕事です。
このような背景のもと、弊社にシステム構築対応ができるかとの打診をいただきました。お客様のお話を伺ううちに、単発のPCクラスタの構築ではなく、逐次導入される計算機を柔軟に既存システムに組み込み、常にシステム全体として機能をリフレッシュしながら、既存のリソースを無駄なく利用したいというお考えが理解できました。
システムは2つの階層として考えることができます。計算機そのものの提案と、拡張を考慮したシステム提案です。前者に関しては、お客様が計算機に精通されているため、ハードウェアの選定は容易です。また後者に関しても、弊社は小型のPCクラスタを主力としており、これらを既存のPCクラスタに接続したり新設のPCクラスタに既存システムを組み込むような作業が日常的のため、拡張性を考慮したシステムの導入は得意としています。
お客様がシステムに希望される点は以下のようなものです。
お客様のご希望に対応する64GBメモリを搭載した製品はDPr690です。またストレージシステムに関しても、DPr690は4基のディスクを搭載できるため、高速なRAID0スクラッチディスク + NFS用ディスク + システムディスクを一括搭載した構成が可能です。そこで以下のようなシステムを提案しました。
計算機は3台で構成されており、全てDPr690を用いたシステムです。しかし、搭載メモリ、搭載ディスクが異なっており、管理ノードの兼用機は計算機として動作すると共にホストノードとしても機能させる仕様としました。写真は稼働中の計算機で、ワイヤーラックに搭載されています。
64GBメモリ計算機 1node (DPr690)計算化学では計算機を長期間連続稼動させることがあります。このシステムは64GBメモリとRAID0 1TBスクラッチディスクを搭載することからも非常に大規模な計算を実行することが想像できます。DPr690 (後継機はDPrT7400) は製品紹介のページでも詳しくご紹介していますが、高い負荷での動作にも対応できるよう大きな電源容量を持ち発熱対策も手堅く施されています。さらに標準で3年間のオンサイト保守が付属しており、万一の障害でも迅速なオンサイト修理が実施されます。Gaussianなどではチェックポイントファイルを使うことでリスタートも可能なため、前人未踏の大規模計算にも安心してチャレンジしていただくことが出来るシステムです。
管理ノードには500GBのディスクをNFSによるファイル共有領域として搭載しています。他の計算機はこの領域ににある/homeにマウントされ運用されます。さらにジョブ投入も管理ノードのLSFに行い、実際のジョブ分配はLSFが計算機の負荷を監視しながら行う仕組みとなっています。今後新たな計算機を導入する場合にも同様に/homeへのマウントとLSFの設定を行うだけで、クラスタとして利用することができます。ユーザが新たな操作を習得する必要すらありません。
このような提案を行ったところ導入を検討していただくことになりました。ご検討の結果、弊社にご発注を頂くことができました。
ハードウェアとしては実績のある計算機のためシステム構築は順調でした。計算機の選定からOSや開発環境類の導入、設定、システム構築までの全作業を弊社が行う一貫生産のため、お客様の作業負担は皆無に近くなります。
さらに計算機システムの運用開始後も、弊社のサポートスタッフが運用支援を行います。その結果、計算機管理に関する負担も激減します。さらに、障害時にも弊社の技術スタッフとオンサイト作業員が一体で復旧作業を行うため、お客様の貴重なお時間を空費させてしまうことがありません。
弊社は単に計算機をPCクラスタ化するだけでなく、ユーザ様のご負担を減らすためメンテナンスフリー化を目指しています。そのうえで必須のメンテナンスを実施します。