お客様の研究室では先生方と学生さん達の計十数名の方々で計算機を共同利用されています。今回は、最初にDual-Core Xeon 4コア機が10台導入され、その実績によりさらに Quad-Core Xeon 8コア機が11台追加導入され、合計21台の計算機が導入されました。このTotal 128コアのHPCクラスタは棚置きでスマートに実現されました。写真でみると初期のベオウルフ型クラスタのように見えてしまいますが、その内部の構造はベオウルフとは全く別物です。現状の計算機システムの長短所を考慮したうえで、お客様にとって価値のある機能を選び出して、使いやすく利用できるように構想・設計・設定されています。
お客様は共同利用環境の運用をLSFで行われています。その運用ポリシーはユニークで、各ノードに1ジョブのみを投入する運用となっています。そのため、低並列度ジョブや非並列ジョブを投入すると遊んでいるコアが発生しますが、並列多重度の高い比較的大きなサイズのGaussianのジョブを実行する事に特化して、それ以外のジョブには目をつむることを選択されています。ここをいさぎよく捨てることで、ユーザはメモリ容量を気にすることなく伸び伸びとジョブを投入できるようになります。このシステムの運用をLSFを用いて自動化することでルールの徹底が実現され、個々のユーザの使い勝手は格段に向上します。このLSFの使い方はセンスが光ります。パーソナル・スーパーコンピューティング環境としての優れた選択に脱帽しました。
1. コストをおさえてコア数を沢山ほしい
2. メモリはコアあたり1GB程度でよい
3. Gaussian用にスクラッチディスクを搭載しておきたい
4. GaussianはPGIコンパイラで正規ビルド
5. 性能の出るIntelコンパイラも使いたい
6. 性能の出るハードウェアを選択したい
7. 設置スペースに余裕があるので、安価なワークステーション型計算機でよい
8.
既にクラスタシステムの運用をしているので、運用などの相談にのってくれるベンダーに依頼したい
9.
LSFのキュー設定のカスタマイズに対応して欲しい
10. コア数の異なる計算機サーバーをLSFのキューで分けるように設定し、効率よくジョブを投入をしたい
11.
Gaussianなどの量子化学計算を行うので、これらの計算機システムに精通したベンダーに依頼したい
12.
教員と学生で利用者が十数名と多いので、共同利用に耐えうるような計算機システムにして欲しい
共同利用環境の利用ポリシーとしては、SMP機であっても複数ジョブが同時に流れるのを避けるLSFの設定にしています。その理由は、計算機サーバーを多数所有しており、1つのジョブが1台の計算機を占有しても、計算機の台数が不足するということはありません。この余裕を使いやすさ実現に活かそうと考えています。1台の計算機上で複数のジョブが同時に流れると、それぞれのユーザーはメモリ容量を考えてジョブ投入をしなければならず神経を使います。それよりは1台の計算機に1ジョブという使い方にしたほうが気楽です。シリアルジョブでもSMP並列ジョブでも、ユーザーが利用環境にあわせてジョブの投入を行うので、それに対応したLSFの設定にしておいてほしいのです。また、現在動作している計算機群は世代を重ねておりCPUの世代ごとにスペックが異なっており、相性問題があります。そのため、LSFのキュー設定を用いてCPUの世代ごとに使用するホストを振り分ける設定が必要となります。
最初にDual-Core Xeon 3.0GHz 4コア機を10台導入されました。お客様はメモリ帯域を心配されていたのですが、実際に利用されてみると、メモリ帯域に関しては大きな問題は無いとのことでした。この実績をふまえて、Quad-Core 2.66GHz 8コア機を11台追加導入されました。これらは同じ棚に設置され、LSFで管理し、他の計算機を含めてユーザからは一体の大きなクラスタ環境として運用されています。
ワークステーションをスチール棚に並べるだけなので、EIAラックに比べて低コストかつ手軽にHPCクラスタが導入できます。また、LSFで管理することで、見掛けは複数のワークステーションでバラバラな構成ですが、論理的には一体として運用のできるクラスタとなっています。スペースに余裕をもたせているので保守も容易です。蛇足ですが、この計算機ならHPC利用を終えた後は普通のWindows PCとして再利用することもできます。
● 演算サーバ 10台 DPr490
お納めした計算機のメモリ容量は4GB、Gaussian用のスクラッチディスクは250GB SATA 1基だけなので、コンパクトな筐体のDPr490を採用しました。
1. Duad-Core Xeon 2CPU 3.0GHz 4コアを搭載
2. Gaussian計算にてノード内の4並列計算まで可能
3. メモリは4GB搭載しコアあたり1GBのメモリを割り当てることが可能
4. 高速・大容量の250GBスクラッチディスクを1基搭載
5. Gaussian用にPGIコンパイラ搭載
6. プログラム用にIntel-Compilerを搭載
7. システムディスクを2重化
● 演算サーバ 11台 DPr490
追加した計算機はQuad-Core Xeon 2.66GHz 8コア機でメモリ容量は4GB、Gaussian用のスクラッチディスクは250GB SATA 1基だけと、今回もコンパクトな筐体のDPr490を採用しました。
1. Quad-Core Xeon 2.66GHz 2CPU 8コアを搭載
2. Gaussian計算にてノード内の4並列計算までは速度がでる
3. メモリは4GB搭載しコアあたり512MBのメモリを割り当てることが可能
4. 高速・大容量の250GBスクラッチディスクを1基搭載
5. 開発環境やアプリケーションはDual-Core機と共有
6. システムディスクを2重化
※ お客様によると、「Gaussianは4並列までは速度が出るが8並列では急激に遅くなります。そのため4コアまでは使えます。その原因としては、メモリ帯域の不足か、キャシュが上手く使えていないか、などが疑われます。」とのことでした。
● 開発環境
開発環境はPGIコンパイラとIntelコンパイラの二種類を搭載しています。64bitのPGIコンパイラはGaussianの公認コンパイラとなっておりGaussianを安心して利用できます。性能の出るIntelコンパイラは多くのアプリケーションをコンパイルする場合に最適です。
高性能な4コアや8コアのメモリ共有計算機が低価格で市販されるようになったことを、制約が少なく利用者に余裕を感じてもらえるような計算環境の実現に活かす方向でインテグレーションを考えておられるのが印象的でした。