お客様は大学の理論化学系の研究室様です。研究室には約150CPU程の計算機を所有されており、アプリケーションとしてはGaussian GAMESSなどを使用されているそうです。これらを約20名ほどの研究者や学生さんたちで共同利用されます。この研究室へ2006年のQ4に写真のDual-Core Xeon 4コアを搭載した2Uサーバ1台をお納めしました。
お納めした計算機 : DPe2950構成 : Dual-Core Xeon 3.0GHz 2CPU 4コア 8GBメモリ
1TBスクラッチディスク (RAID0)
用途 : Gaussian、GAMESS
実際に利用されると、新世代Xeonの計算速度の速さには驚かれたそうです。これ以前に購入された旧世代のDual-Core Xeon 2.8GHzと新Dual-Core Xeon 3.0GHzを比較されたところ1.5倍も高速であったとのことでした。「とにかく速いのが気に入った。」と絶賛されていました。
1コアで走らせても速いし、4コアで走らせても速く、GAMESSのHF計算では1コアの計算速度に対して4コアの計算速度が約3.7倍だったそうです。
そこで、なぜ速度が向上したのかを理解していただくために、以下に簡単な比較表を作成し、新旧Xeonの違いを確認できるようにしてみました。表には、コアそのものの改善とメモリI/Oの改善が平行して行われおり、Quad-Core XeonがHPCプラットホームの主力になった理由が読み取れます。
【参考】2ソケットの新旧での簡易性能比較表
| 2ソケット | |||
| Dual-Core Xeon | Dual-Core Xeon | Quad-Core Xeon | |
| 旧 | 新 | 新 | |
| アーキテクチャ | NetBurst | Intel Coreマイクロ | |
| コア毎のクロックあたりの 同時実行可能命令数 |
2 | 4 | |
| コア数 | 2 | 2 | 4 |
| キャッシュサイズ (MB) | 2 + 2 | 4 (共有) | 4 (共有) + 4 (共有) |
| FSB (MHz) | 800 | 1333 | |
| FSB チャネル数 | 1 | 2 | |
| メモリ帯域 (GB/s) | 6.4 | 21 | |
| 搭載可能メモリ容量 (GB) | 16 | 32-64 | |
ついでに参考として「1ソケットと2ソケットの新旧での簡易性能比較表」も作成してみました。NetBurstアーキテクチャの時代は1ソケットのPentium4がHPCプラットホームの主役でした。しかし、2ソケットのXeon用マザーボードが21GB/sのメモリ帯域とFSB1333MHzを持つようになった瞬間に状況は一変しました。これに対して、1ソケット用マザーボードのFSBは1066MHzで停滞しており、HPC用のプラットホームとしては価値を喪失しています。
また、64bit計算が一般化するに従い、搭載メモリ容量に対する要求も増大し、ノードあたり16GBの搭載は普通になっています。この面でも2ソケットのXeon用マザーボードは大丈夫ですが、1ソケットのマザーボードは弱いです。
【参考】1ソケットと2ソケットの新旧での簡易性能比較表
| 1 ソケット | 2 ソケット | |||||
| 旧 | 新 | 旧 | 新 | |||
| アーキテクチャ | NetBurst | Intel Coreマイクロ | NetBurst | Intel Coreマイクロ | ||
| コアあたりの 同時実行可能命令数 |
2 | 4 | 2 | 4 | ||
| コア数 | 1 | 2 | 4 | 1 | 2 | 4 |
| キャッシュ | 1MB or 2MB | 4MB共有 | 4MB共有 x2 | 2MB | 4MB共有 | 4MB共有 x2 |
| FSB (MHz) | 1066 | 800 | 1333 | |||
| メモリ帯域 (GB/s) | 10.6 | 6.4 | 21 | |||
| 搭載可能メモリ (GB) | 4-8 | 16 | 32-64 | |||
それらとは別に、スクラッチファイル用の高速大容量なディスクボリュームを要求するアプリケーションは科学技術計算用では多く存在しています。これらに対して、マザーボードには4個のSATAディスクのバスがあり、それぞれ独立してコントローラに接続されていて、独立してI/OできるためRAID0構成にするとリニアに速度が向上します。また、現在750GBのSATAドライブが量産されるようになっており、信頼性も高くなっています。そのため、1.5TB程度のRAID0ボリュームはSATAディスク2基をソフトウェアRAID0化するだけで構成できます。これも非常に便利です。
お客様は、これらのことが相乗して性能が出ていたことに対して、それを高く評価されていました。現実のアプリケーションで実計算を行っておられるお客様から、ご評価して頂けたことは大きいです。
お客様が利用されているアプリケーションはGaussianとGAMESSが主だそうです。特にGaussianでは大規模計算を行っているために、64bit計算は必須とのことでした。そこでGaussianソースコードを64bitに対応したPGIコンパイラでビルドしたものを利用されるそうです。これにより従来は64bit UNIX機でないと行えなかった計算が手元のHPC機の高速CPU、大規模メモリ、大容量スクラッチディスクをフルに活用して実現できるようになったとのことです。速度も高速で満足しているとのことでした。
昨年の秋に導入した新Dual-Core Xeon 3.0GHz 1台により、今後の計算機の動向予測に確信を持たれた研究室様では、さらにQuad-Core Xeonの調査、計算速度の向上、計算キャパシティーの拡張を目的に、Quad-Core Xeon機を2台、追加されることとなりました。
お客様の研究室は合計で150CPUくらいのマシンを計算機室に設置されています。これらを20名ほど方で共同利用されているため、計算パワーはまだまだ必要だとのことです。ところが、計算機室は電源容量の面からこれ以上の設置は厳しいため、今回は電源にまだ余裕のある居室に設置できるように、静かなタワー型ワークステーションを選ばれたそうです。
右写真が2台の静音HPCワークステーションです。この2台で、16コア、スクラッチディスク 1TB + 1TB、メモリ16GB + 16GBと大規模です。単なるPCに見えてしまう外観と動作音からこんなにも高速かつハイスペックとは思えず錯覚してしまいますが、Alpha GS320 (当時は何億円もした大型UNIX計算サーバ) を二台並べたくらいパワフルだと思います。
Dpr690の特徴は、Quad-Core Xeonが2個搭載できるのは当然として、
1. ディスクが4基搭載でき、大容量のRAID0ボリュームが作れる
2. メモリスロットが16個ある
3. 大容量電源がオプションで搭載できる
4. 筐体は大きいけれど静粛
GaussianやGAMESSの特に大規模なJobにまで対応している計算機としては素晴らしいマシンです。
1ノードあたりの構成 : Quad-Core Xeon 2CPU 8コア 16GBメモリ
システムディスク250GBx2、スクラッチディスク1TB (RAID0)
用途 : Gaussian、GAMESS
写真はお客様の居室に納めさせて頂いた2台の計算機です。書類キャビネット上に納まり、スペースを無駄にしていません。動作音は皆無といって良いほど小さく、これで16コアが動作しているのですから驚きです。
Quad-Core Xeon系統の計算機は以下の特徴を持ちます。
1. 以前の64bit UNIX環境を完全に置き換えることができる
2. 絶対性能が高い
3. 電力性能比が非常に高い
4. 費用性能比が非常に高い
科学技術計算を行っておられる研究室の多くは、古いUNIX機や、32bitや64bitのインテル機などが渾然した状態で利用されておられるのだと思います。それがようやくQuad-Core Xeonの登場により、このマシンだけでほぼ全てのHPC計算を済ませることの出来るようになりました。しかも環境コストなども低くて済みます。今後、このマシンやその後継機種にリプレースが進むことで、HPCのマシン環境は急速に変化して行くと考えられます。