お客様は国立大学で計算物理を行われている研究室の方です。昨年に弊社よりHPCクラスタを導入して頂きました。このシステムは、お客様にとっては初めてのクラスタです。これまでは研究室の方が個々にWSを導入され、計算は主に計算センターを利用されていたそうです。
ところがお客様としも、CPUがマルチコア化し計算機性能が向上したことに興味を持たれ、今後の計算機利用環境の方向性を見定めるため、試験的なシステム導入を構想されていました。
そこで、プロトタイプとして、ワークステーション2台からなるコンパクトなHPCクラスタを導入されました。このシステムは台数こそ2台ですが、これから中規模クラスタにまで対応する立派な管理サーバと、完成度の高いジョブスケジューラーとしてLSFが導入されており、今後のシステム拡張に対応できる本格的な仕様です。また、運用は弊社技術支援によるメンテナンスフリー化が、保守についてもオンサイト保守を活かしたアウトソーシング化が求められているのはいうまでもありません。
PCクラスタは、マルチコア化による速度向上と、半導体の高密度化による大容量化が進んでいます。さらに、システムを適切な業者から導入すると、完成度の高いPCクラスタが手軽に導入できます。また、導入後の保守運用なども低コストでアウトソーシングできます。そのため自前のスパコンセンターが簡単に実現できます。
手元の計算機は安心です。
計算センターの計算機は手元の計算機を補完するために利用します。
計算サーバ : DPr490 2node 4CPU 8コアシステムの利用が進み実用性が確認されるに従い、処理性能の向上が求められるようになったそうです。そこで、計算機を追加されHPCクラスタを拡張されました。管理サーバが導入されているので、計算ノードの追加は容易です。新しいノードをネットワークに接続すると、弊社の技術スタッフがリモートから管理サーバの設定変更作業を行いました。その結果、納入した当日には本格稼動しました。追加された新ノードはユーザから直接ログインして利用するわけではないので、ユーザの利用方法に変化は一切ありませんから手間は皆無です。これは管理者にとっても楽です。
追加計算サーバ : DPr390 1node 2CPU 8コアCPUの選定では、お客様は高いスループットを必要とされていたので、当時最新のQuad-Core CPUをテスト的に導入されました。
最初のベースシステムの導入とテスト利用に続いて、Quad-Core CPUのテスト利用の結果も、お客様のご期待に背きませんでした。そこで、さらに本格的なクラスタの導入を構想されました。具体的にはQuad-Core Xeon 2CPU 8core搭載のワークステーションを4台用いて32coreの追加を考えられました。
追加計算サーバ : DPr490 4node 8CPU 32コアこのシステムは最初からシステムの拡張を考慮した設計をしているため、計算機とソフトウェア類の増設容易です。しかし、ノード数が多めなので、今回は弊社の技術スタッフがオンサイト作業を行いました。
オンサイト作業を行うことで、お客様から直接細かなご要望を伺うことができます。特に、運用ノウハウなどをお伝えする場合などは、現場でお客様にご意見や疑問点などをお聞かせ願っているうちに浮かび上がる課題の幾つかを、その場で対応させて頂くことが通常です。
オンサイト作業の際に、お客様から次のようなご感想を伺いましたので箇条書きでご紹介させていただきます。
お客様から、ジョブスケジューラとして搭載しているLSFのキューに設定したプライオリティによるスケジューリングの違いを詳しく知りたいというご質問をいただきました。確かに小規模なクラスタで、しかもマルチユーザで、さらに投入ジョブ数が多いと、LSFが持つフェアシェアの機能が強く働き、プライオリティーの効果が判然としないことがあります。
そこで、1台のマシンだけで単純な系を一時的に構成し、典型的な状況を再現し、その挙動を観察してみました。具体的には以下のような動作を確認しました。
このデモンストレーションを行ったところ、お客様から、「LSFの動作の様子が良く理解できました。」と言っていただけました。これなども実際にシステムを動かしてテストすると直感的に理解できることです。ところが、現実に動作しているシステムではLSFはフェアシェアやロードシェアなども同時に機能させた複雑な挙動をしているため、個々の機能は判り難いです。しかし、この複雑な挙動にこそLSFの真価が表れており、他のジョブスケジューラーでは到底実現できない使い易さと効率の良さを両立させたスケジューリングが実現されています。
今回は、オンサイト作業時のリラックスした雑談のなかでお客様の疑問をお伺いすることができ、実機によるデモによるご説明を行うことが出来たため、疑問を解消していただくことができました。しかし、もしこのような機会が無く、疑問をお持ちのままで利用されつづけますと、やはり運用上でお客様のご負担が増えることが考えられます。幸いにしてHPCテクノロジーズは沢山のクラスタ運用の経験がありますから、多くのケースに対して実践的な対処方法を知っている可能性があります。もしお客様が疑問などをお持ちでしたら、ご遠慮なさらずに是非ともHPCテクノロジーズにメールなどでお問い合わせをお願いしたいと思っています。可能な限りの対応を心がけています。
増設作業を終え、新たに追加したノードも含め全44コアが稼動を開始した直後から、大量のジョブが投入され処理が開始されました。その後はトラブルも無く安定した運用が継続しています。