HPC-ProServer DPeT110 II
第2世代Core (Sandy Bridge)
を1基搭載したエントリ級のタワーサーバ
Xeon E3-1200番台プロセッサを搭載
DDR3 1333MHzメモリを採用し21GB/sのメモリ帯域幅
ECC付きメモリを最大32GBまで搭載できる
2TBディスクを最大4基搭載でき8TBのディスク容量を実現
大口径低回転ファンを採用し静粛性に配慮
RedHat6.1を標準搭載、用途によってCentOS 5.6オプション搭載
開発環境設定、ネットワーク設定
ジョブスケジューラ設定、ファイサーバ接続設定サービスをオプション化
3年間の翌営業日オンサイト部品交換サポートを無償実施
3年間のHPC技術支援を無償で実施
HPC-ProServer DPeT110 II
第2世代Intel Core Sandy Bridge Microarchitectureを採用した
1-socket Xeon E3-1200番台4-coreプロセッサを搭載する
エントリー級のタワー型HPCサーバ
「HPC-ProServer DPeT110 II」 (以下DPeT110 IIと略) は第2世代Intel Core Sandy Bridge Microarchitectureを採用した1-socket Xeon E3-1200番台4-coreプロセッサを搭載するエントリー級のタワー型HPCサーバです。
DPeT110 IIのHPC計算としての主な特徴は次のようなものです。
・ Sandy Bridge Microarchitecture 1-socket Xeon E3-1200番台4-coreプロセッサを搭載
・ AVXによる256bitモードで約100GFLOPSを達成
・ SSEによる128bitモードで約50GFLOPSを達成、下位互換性がある
・ メモリ帯域幅は21GB/sを実現
・ メモリ容量は最大32GB (ECC)を搭載可能
・ ディスク容量は最大8TBまで拡張可能
しかし、Sandy Bridgeは発売されてから日が浅いため、実際のアプリケーションではこの動作条件を整えることが難く、期待値の半分しか性能が得られない場合があります。その例をLinpack HPLベンチマークとSPECfpベンチマークの比較で観察できます。
Linpack HPLのように単純で動作条件を整えやすいベンチマークテストなら、AVXによる256bitモードの性能を発揮させやすいようです。ところがSPECfpのように実際に使われている複雑なアプリケーションを用いたベンチマークテストでは、AVXによる256bitモードの性能を発揮させ難く、従来のSSEによる128bitモードの性能しか得られない場合がまだ多いようです。
実際のアプリケーションがSandy Bridgeの性能を発揮させられるようになるためには、ハードウェアが完成度を高めるだけでは不十分です。そらに開発環境の熟成、アプリケーションの最適化など、多くの要素がAVXに最適化される必要があります。しかし、それにはまだ時間がかかりそうです。
それでは全ての環境が整うまでは、Sandy Bridge 1-socket Xeon HPC Serverの導入を見送り、既存のNehalem 2-socket Xeon 6-core HPC Serverや、Magny-Coures 4-socket Opteron 12-core HPC Serverを導入した方が良いのでしょうか。
あるいは、今年末に発売が予定されているSandy Bridge 2-socket Xeon 8-core HPC Serverを待てばよいのでしょうか。この計算機はクロック速度が高く、コア数も多いため、AVXの性能を利用できなくても、すなわちSSEによる128bitモードでも、高い性能が得られるうえ、さらにAVXの性能を発揮させられるアプリケーションを利用した場合は、性能の増加分をボーナスとして利用できるからです。
このように考えるとSandy Bridge 1-socket Xeon 4-core HPC Server DPeT-110 IIは、HPC分野では利用価値が無いように思えます。しかしそれは違います。2ソケット機に先駆けて製品化された1ソケット機には大切な役割があります。
マイクロプロセッサのアーキテクチャは数年に一度のサイクルで更新され、性能が段違いに向上します。この10年間でプロセッサの性能は40倍から80倍に向上し、システムの性能は150倍に向上し、さらに300倍に向上する勢いです。
・ 2000年NetBurst 登場 (1.5GHz, 2命令/CPU, 3GFLOPS/CPU, 3GFLOPS/System)
・ 2006年Intel Core 登場 (3GHz, 8命令/CPU, 24GFLOPS/CPU, 48GFLOPS/System)
・ 2011年Sandy Bridge 登場 (3.5GHz, 32命令/CPU, 112GFLOPS/CPU, 112GFLOPS/System)
・ 2011年Sandy Bridge 2-s. Xeon 8-c. (3.5GHz, 64命令/CPU, 224GFLOPS/CPU, 448GFLOPS/Sys.)
・ 2012年Sandy Bridge 4-s. Xeon 12-c. (3.0GHz, 96命令/CPU, 288GFLOPS/CPU, 1152GFLOPS/Sys.)
CPUの発熱の問題によってCPUの動作クロック速度を高くすることができなくなりました。そこでマイクロアーキテクチャの改良の方針は、CPUの中で同時に処理できる命令数を増やすことと、システムに搭載できるCPUの数を増やすことに向かいました。
改良の結果、この10年間で2命令同時処理から96命令同時処理まで処理性能が向上し、さらに384命令同時処理に向けて改良が進みます。
・ 2000年NetBusrt 1-socket Pentium4 1-core 2命令同時処理
・ 2010年Core 2-socket Xeon 6-core 48命令同時処理
・ 2011年Sandy Bridg 2-socket Xeon 6-core 96命令同時処理
・ 2012年Sandy Bridg 4-socket Xeon 12-core 384命令同時処理
並列度を向上させることで、CPUのクロック速度を上げず、消費電力を10年前と同じに抑えたまま、性能を2桁も向上させています。
10年で2桁もの性能向上を実現するための代償は、5年毎に訪れるアーキテクチャの更新に集約されています。商用プロセッサですから下位互換は保障されています。しかし、アーキテクチャが更新されたことによる性能向上という果実を受け取るためには、使用しているアプリケーションソフトを新しいアーキテクチャに対応させる必要があります。
この移行の過程は平坦ではありません。例えばNetBurst MicroarchitectureからCore Microarchitectureへ移行した際には、望ましい性能が出るまでに3年の歳月がかかっていました。その間にMicroarchitectureのマイナーチェンジがあり、開発環境や数値演算ライブラリは何度もバージョンアップしています。これに合わせてユーザのアプリケーションの最適化も行われていました。
もちろんインテルアーキテクチャのプロセッサは下位互換が保障されているので、アーキテクチャが更新されても、アプリケーションはそのまま利用し続けることができます。しかしそれは下位互換の範囲で利用することになり、アーキテクチャの更新による性能向上の効果はありません。
新しいマイクロアーキテクチャによって得られる高い性を利用するためには、アプリケーションを新しいアーキテクチャに最適化させなけばなりません。この最適化の作業は個々のアプリケーションによって簡単だったり難しかったりします。
何もしなくても高い性能が得られる場合があります。開発環境を更新しアプりケーションを再コンパイルするだけで高い性能が出る場合もあります。あるいは高い性能が出るまでに長い時間がかかる場合もあります。
------------------------------------------------------------------------------
作成中
新しいアーキテクチャを搭載した本格的な計算機システムを導入する前に、新しいアーキテクチャとアプリケーションとの網羅的な相性テストをしておくことは大きな意味があります。
どのアプリケーションはそのままで性能が出るのか
並列処理と平行処理での性能の出方はどうか
コンパイラをバージョンアップすると性能は向上するのか
コンパイラをバージョンアップすることの弊害はどこで出るのか
新しいOSと既存のコンパイラとの相性はどうか
新しいOSと既存の並列環境との相性はどうか
新しいOSとジョブスケジューラとの相性はどうか
など、チェックすべき点は山積しています。