お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

ベンチマークTOP

アプリケーション別ベンチマーク

 Gaussian (test397)大規模計算
 VASP (Hg)VASP (large job)
 GAMESS
 Amber9 (jac)
 CHARM
 FLUENT
 STAR-CD
 LS-Dyna


SPEC CFP2006の結果評価

Linpack HPL定点観測

システムインターコネクトの試験

ストレージのべンチマーク

基礎のベンチマークテスト


プロセッサ番号一覧へ

HPC計算機テストセンター概要
HPC計算機テストセンター利用法

LS-Dyna Xeon 2n4p16c (08.9.29)

LS-Dyna Xeon 1n2p8c (08.7.23)

LS-Dyna Xeon 1n2p8c (07.1.26)

「公式ビルドGaussian 09」による計算機の評価

Sandy BridgeとGaussian (11.6.27〜11.7.1)

GaussianによるSandy Bridgeのテスト結果から
現在の (AVX未対応の) Gaussian09 B01でも
Sandy Bridgeで大幅に性能向上することが判明

 Gaussian09 B01によるSandy Bridgeのテスト結果が寄せられました。Gaussian09 B01はまだAVX (Advanced Vector Extensions) に対応していません。そのためSandy Bridgeを利用しても、256bit幅で動作するネイティブモードのAVX (以下、AVX-256) は利用できず、従来と同じ128bit幅で動作するSSE互換モードのAVX (以下、AVX-128) を利用することになります。

 はじめはAVX-128しか利用できないので、Gaussian09用にSandy Bridgeを導入する意味はないと考えていました。しかし、今回寄せられたテスト結果から、この判断は早計であることがわかりました。

 Gaussian09でのCPUコアの計算速度をSandy BridgeとNehalemで比較すると、次のようにSandy Bridgeの基本性能が高いことがかわりました。

・ シリアル処理はSandy Bridgeのコアが40%高速
・ 並列処理はSnady Birdgeのコアが22%高速

GaussianのSandy Bridgeによる高速化の状況を
SPECfpのSandy Bridgeによる高速化の状況と比較
GaussianはSPECfpと同様の傾向を示していた
ハードウェアとミドルウェアの改良で各10%の性能向上

 Gaussian09 B01はSandy Bridgeによって計算速度が高速化しています。しかしそれはAVXによる効果ではなく、Sandy Bridge内部のデータ転送速度の向上や、OS、開発環境の改善による効果によって高速化したものです。

 この高速化はGaussianだけで発生する効果ではなく、SPECfpベンチマーク全般でも発生している一般的な効果です。そのため効果の一般性が保障されます。

 SPECfpの平行処理では、Sandy BridgeはNehalemより20%も高速です。これはAVXの効果ではありません。これはSandy Bridgeのハードウェアの改善による高速化の効果が10%、ミドルウェアの改善による高速化の効果が約10%という効果複合によるものです。

 次に、Gaussianの並列処理を確認すると、クロック速度を補正した後はSandy BridgeはNehalemより17%も高速でした。Gaussianはバイナリで提供されているためコンパイラや数値演算ライブラリはGaussian09 B01がビルドされた2010年8月以前の古いバージョンを使っています。そのためこの17%の性能向上は、Sandy Bridge内部のデータ転送速度の向上とOSの改良による結果だと考えられます。

 テスト結果を見るとRedHat5.6 (CentOS5.6) からRedHat6.0へのOSのアップグレードで6%の性能向上がみられます。そのため残りの11%がSandy Bridge内部のデータ転送性能の向上によるものだと推定できます。

 もし今後Gaussianで使っているコンパイラや数値演算ライブラリがアップグレードされるなら (AVX-256を使わなくても) 更に数パーセントの性能の向上が見込めそうです。するとGaussianでの性能向上もSPECfpの性能の向上に近い値になりそうです。

 さらにこれから発売される2ソケット版のSandy Bridgeは、クロック速度が少し速くなり、搭載するコア数も少し増えるようです。これらの効果は掛け算で効果を発揮します。そのためSandy Bridgeは当面の間AVX-256の性能を発揮させることができなくても大きな高速化を実現しそうです。

実際のGaussianのテスト結果をもとに
Sandy Bridge (AVX-128) の性能を評価

 実際のGaussianのテスト結果を比較するため、下の表から次の3ケースを抽出しました。なお、Sandy BridgeとNehalemのクロック速度の差は、シリアル処理ではターボブーストが効くため3.9GHzと3.6GHzになり差は8%です。パラレル処理では3.5GHzと3.33GHzになり差は5%です。

# ご利用環境 並列数
1 2 4
38 HPC-ProServer DPrT1600
Xeon E3-1280 3.50GHz (TurboBoost: 3.9GHz)
DDR3 1333MHz 16GB ECCメモリ
RedHat EL6.0 (Gaussian 非対応OS)
Gaussian 09 B01 + (バイナリー版) 対応OS RedHat5.5
(11.6.27)
1835 988 572
36 HPC-ProServer DPrT1600
Xeon E3-1280 3.50GHz (TurboBoost: 3.9GHz)
DDR3 1333MHz 16GB ECCメモリ
CentOS 5.6 (RedHat5.6互換) (Gaussian 対応OS)
Gaussian 09 B01 + (バイナリー版) 対応OS RedHat5.5
(11.6.27)
2020 1069 600
33 HPC-ProServer DPeR710 1node 2CPU 12core
X5680 Octal-Core Xeon 3.33GHz 12MB-L3 QPI6.4GT/s (Westmere-EP)
(TurboBoost: 3.6GHz)
Intel 5520 Chipset、DDR3 1333MHz Reg 48GBメモリ (8GBx6)
Gaussian 09 B01 + (バイナリー版) (11.1.5)
2576 1321 698

 

Gaussainのシリアル処理ではSandy Bridgeは
実用的 (CentOS5.6) には27%
最大 (RedHat6.0) 40%の性能向上

 Gaussianのシリアル処理で、#33のNehalem X5680 3.33GHz CentOS5.xと、#36のSandy Bridge E3-1280 3.5GHz CentOS5.6の速度比較すると差は27%でした。また#38のSandy Bridge E3-1280 3.5GHz RedHat6.0の速度を比較すると差は40%でした。

 シリアル処理でのNehalemとSandy Bridgeのクロック速度の差は8%です。最初に同じCentOS 5.6と同じ開発環境を使っている#33と#36の速度差の27%からクロック速度差の8%を引くと、純粋な速度差の19%が求められます。この19%がSandy Bridgeのハードウェアの進歩による速度向上と考えられます。

 次にOSがCentOS 5.6の場合の速度差は27%、RedHat6.0 (Sandy Bridge対応) へとアップグレードした後の速度差は40%です。この両者の差の13%がOSの改良による性能向上です。

 さてGaussian09 B01がビルドされた日は2010年8月19日以前です。そこからコンパイラや数値演算ライブラリなどの開発環境は変更されていません。そのため開発環境が改良された成果はこの性能には反映されていません。もしGaussian09 (B02) がAVX-256を使わないでリリースされたとすると、性能が何パーセントか向上している可能性があります。

 なおGaussian09 B01が公式に対応しているOSはRedHat5.5 (含CentOS 5.6) までです。そのため実用的に使えるシステム構成は#36のSandy Bridge E3-1280 3.5GHz CentOS5.6です。そのため実用的な性能向上は27%ということになります。

Gaussainの並列処理ではSandy Bridgeは
実用的 (CentOS5.6) には16%
最大 (RedHat6.0) 22%の性能向上

 Gaussianの並列処理で、#33のNehalem X5680 3.33GHz CentOS5.xと、#36のSandy Bridge E3-1280 3.5GHz CentOS5.6の速度を比較すると差は16%でした。また#38のSandy Bridge E3-1280 3.5GHz RedHat6.0の速度を比較すると差は22%でした。

 並列処理でのNehalemとSandy Bridgeのクロック速度の差は5%です。最初に同じCentOS 5.6と同じ開発環境を使っている#33と#36の速度差の16%からクロック速度差の5%を引くと、純粋な速度差の11%が求められます。この11%がSandy Bridgeのハードウェアの進歩による速度向上と考えられます。

 次にOSがCentOS 5.6の場合の速度差は16%、RedHat6.0 (Sandy Bridge対応) へとアップグレードした後の速度差は22%です。この両者の差の6%がOSの改良による性能向上です。

 さてGaussian09 B01がビルドされた日は2010年8月19日以前です。そこからコンパイラや数値演算ライブラリなどの開発環境は変更されていません。そのため開発環境が改良された成果はこの性能には反映されていません。もしGaussian09 (B02) がAVX-256を使わないでリリースされたとすると、性能が何パーセントか向上している可能性があります。

 なおGaussian09 B01が公式に対応しているOSはRedHat5.5 (含CentOS 5.6) までです。そのため実用的に使えるシステム構成は#36のSandy Bridge E3-1280 3.5GHz CentOS5.6です。そのため実用的な性能向上は16%ということになります。

開発環境の状況

 Gaussianの開発環境は同じものが一貫して使われています。PGI Fortran、gcc、数値演算ライブラリATLAS、並列処理ライブラリLindaなどです。ソフトウェア開発者は開発環境の変化を嫌いますから、この選択は今後も変わらないと思います。

 これらの開発環境はマイナーなため、情報を整理して把握していなかったので、この機会にAVXへの対応状況を時系列で整理してみました。

 Gaussian 09 B01がリリースされた2010年8月の時点では、PGIコンパイラ以外の他の全てのアイテムはAVXに対応していませんでした。これではGaussianのAVXへの対応は環境的に不可能です。

 Gaussianが利用する全ての開発環境がAVXに対応したのは2011年3月のATLASとgccのAVXへの対応と、翌4月のSandy Bridgeのサーバ版が発売されてから以降のことです。

 そこから開発環境を整備し、ポーティング作業を始められるのは5月以降です。さらに移植作業、動作確認作業、デバック作業などが続きます。

 実際にAVXとRedHat6.0以降のOSに対応した製品がリリースされるのは来年になると思います。

アイテム 型番 リリース時期 (降順) 備考
PGIコンパイラ (Fortran) PGI 10.0 2009-    AVX対応開始
Gaussian 09 (AVX未対応版) Gaussian 09 Rev. B.01
(OS: RedHat5.5)
(Fortran: PGI 10.5)
2010-08-19 AVX未対応
RedHat OS RedHat 6.0 2010-11-16 AVX対応開始
1-socket 4-core Sandy Bridge for PC i3/ i5/ i7 2011-03   AVX対応開始
ATLAS ATLAS 3.9.39 2011-03-19 AVX対応開始
gcc gcc 4.6 2011-03-25 AVX対応開始
1-socket 4-core Sandy Bridge for Server E3-1200 2011-04-06 AVX対応開始
2011年4月6日以降はGaussianが利用するAVX用の開発環境がフルラインナップ
2-socket 8-core Sandy Bridge for Server
E5- 2011 末以降? AVX対応開始
Gaussian 09 (AVX対応版) Gaussian 09 New 2011 末以降? AVX対応開始

 

OS、開発環境、アプリケーションのアップグレードサービス

 Sandy Bridge計算機に、RedHat6.0以前のOSと、Gaussain 09 B01を搭載したシステムのオンサイトアップグレードサービスを適切な時期に実施することができます。

 アップグレードサービスの際には、Nehalemを使った既存の計算機と、新たに導入されるSandy Bridgeを使った計算機の動作環境の最適化についてのご相談にも応じます。

まとめ

 今現在、入手可能な情報を元に、Gaussian用システムの近い将来の動向をまとめました。この情報を参考にしてシステムの導入計画を考えてみてください。

 

# ご利用環境 スレッド並列度
1 2 4 8 12 16 24 32 48
時間
38 HPC-ProServer DPrT1600
Xeon E3-1280 3.50GHz (TurboBoost ON 3.9GHz)
DDR3 1333MHz 16GB ECCメモリ
RedHat EL6.0 (Gaussian 非対応OS)
Gaussian 09 B01 + (バイナリー版) 対応OS RedHat5.5
(11.6.27)
1835 988 572 - - - - - -
37   同 E3-1280 4core R/H6.0 1thread 1job 同時実行の平均時間 1835 - - - - - - - -
  同 E3-1280 4core R/H6.0 1thread 2job 同時実行の平均時間 1928 - - - - - - - -
  同 E3-1280 4core R/H6.0 1thread 3job 同時実行の平均時間 2025 - - - - - - - -
  同 E3-1280 4core R/H6.0 1thread 4job 同時実行の平均時間 2107 - - - - - - - -
36 HPC-ProServer DPrT1600
Xeon E3-1280 3.50GHz (TurboBoost ON 3.9GHz)
DDR3 1333MHz 16GB ECCメモリ
CentOS 5.6 (RedHat5.6互換) (Gaussian 対応OS)
Gaussian 09 B01 + (バイナリー版) 対応OS RedHat5.5
(11.6.27)
2020 1069 600 - - - - - -
35 HPC-ProServer DPeR910 1node 4CPU 32core
X7560 8Core Xeon 2.27GHz QPI6.4GT/s (Nehalem-EX)
DDR3 1333MHz Reg 256GBメモリ
Gaussian 09 B01 + (バイナリー版) (11.1.6)
3616 1850 959 516 - 292 - 196 -
34 HPC-ProServer DPeR815 1node 4CPU 48core
Opteron 6174 2.2GHz 12core (Magny-Cours)
DDR3 1333MHz 256GBメモリ
Gaussian 09 B01 + (バイナリー版) (11.1.6)
4602 2451 1289 702 508 - 342 - 291
33 HPC-ProServer DPeR710 1node 2CPU 12core
X5680 Octal-Core Xeon 3.33GHz 12MB-L3 QPI6.4GT/s (Westmere-EP)
(TurboBoost ON 3.6GHz)
Intel 5520 Chipset、DDR3 1333MHz Reg 48GBメモリ (8GBx6)
Gaussian 09 B01 + (バイナリー版) (11.1.5)
2576 1321 698 396 304 - - - -
32 HPC-ProServer DPeM610 1node 2CPU 12core
X5660 Octal-Core Xeon 2.80GHz 12MB-L3 QPI6.4GT/s (Westmere-EP)
Intel 5520 Chipset、DDR3 1333MHz Reg 24GBメモリ (4GBx6)
Gaussian 09 B01 + (バイナリー版) (11.1.5)
3004 1528 801 442 335 - - - -
31 HPC-ProServer DPeR910 1node 4CPU 32core
X7560 8-Core Xeon 2.27GHz QPI6.4GT/s (Nehalem-EX)
DDR3 1333MHz Reg 256GBメモリ
Gaussian 09 A02 + (バイナリー版) (10.6.21)
3605 - 1029 546 - 317 - 226 -
30 HPC-ProServer DPeR815 1node 4CPU 48core
Opteron 6174 2.2GHz 12core (Magny-Cours)
DDR3 1333MHz Reg 256GBメモリ (8GBx32)
SAS 2.5inch 10krpm x5 RAID0 XFS
Gaussian 09 A02 + (バイナリー版) (10.6.3)
5085 2624 1388 758 556 - 383 - 339
29     同 6172 4CPU 48core 1thread 48job 同時実行時の平均時間 (10.6.3) 5599 - - - - - - - -
28     同 6172 4CPU 48core 2thread 24job 同時実行時の平均時間 (10.6.3) - 2937 - - - - - - -
27     同 6172 4CPU 48core 4thread 12job 同時実行時の平均時間 (10.6.3) - - 1539 - - - - - -
26     同 6172 4CPU 48core 8thread 6job 同時実行時の平均時間 (10.6.3) - - - 857 - - - - -
25     同 6172 4CPU 48core 12thread 4job 同時実行時の平均時間 (10.6.3) - - - - 640 - - - -
24     同 6172 4CPU 48core 24thread 2job 同時実行時の平均時間 (10.6.3) - - - - - - 398 - -
23     同 6172 4CPU 48core 48thread 1job 同時実行時の平均時間 (10.6.3) - - - - - - - - 339
22 HPC-ProServer DPeM610 1node 2CPU 12core
X5660 Octal-Core Xeon 2.80GHz 12MB-L3 QPI6.4GT/s (Westmere-EP)
Intel 5520 Chipset、DDR3 1333MHz Reg 24GBメモリ (4GBx6)
Gaussian 09 A02 + (バイナリー版) (10.5.11)
3167 1633 861 471 355 - - - -
21     同 X5660 2p12c 1thread 12job 同時実行時の平均時間 (10.5.11) 3663 - - - - - - - -
20 HPC-ProServer DPrT5500 1node 2CPU 8core
W5590 Quad-Core Xeon 3.30GHz 8MB-L3 QPI6.4GT/s (Nehalem-EP)
Intel 5520 Chipset、DDR3 1333MHz Reg 24GBメモリ (4GBx6)
Gaussian 09 A02 + (バイナリー版) (09.12.17)
2839 1454 800 444 - - - - -
19 8コアでの並行処理効率が96%に到達 (単独処理時間は3364)
HPC-ProServer DPeR610 1node 2CPU 8core
X5570 Quad-Core Xeon 2.93GHz 8MB-L3 QPI6.4GT/s (Nehalem-EP)
Intel 5520 Chipset、DDR3 1333MHz Reg 24GBメモリ (4GBx6)
73GB 2.5inch SAS 15krpm x1
Gaussian 03 E01 + (バイナリー版) (09.5.21)
3364 - - - - - - - -
18 HPC-ProServer DPeR610 1node 2CPU 8core
X5570 Quad-Core Xeon 2.93GHz 8MB-L3 QPI6.4GT/s (Nehalem-EP)
Intel 5520 Chipset、DDR3 1333MHz Reg 24GBメモリ (4GBx6)
73GB 2.5inch SAS 15krpm x1
Gaussian 03 E01 + (バイナリー版) (09.4.21)
3364 1696 884 489 - - - - -
17 HPC-ProServer DPeR610 1node 2CPU 8core
X5570 Quad-Core Xeon 2.93GHz 8MB-L3 QPI6.4GT/s (Nehalem-EP)
Intel 5520 Chipset、DDR3 1066MHz Reg 24GBメモリ (4GBx6)
73GB 2.5inch SAS 15krpm x1
Gaussian 03 E01 + (バイナリー版) (09.4.23)
3315 1697 887 491 - - - - -
16 HPC-ProServer DPeR610 1node 2CPU 8core
X5570 Quad-Core Xeon 2.93GHz 8MB-L3 QPI6.4GT/s (Nehalem-EP)
Intel 5520 Chipset、DDR3 800MHz Unb 12GBメモリ (2GBx6)
73GB 2.5inch SAS 15krpm x1
Gaussian 03 E01 + (バイナリー版) (09.4.23)
3309 1701 890 503 - - - - -
15 HPC-ProServer DPrT7500 1node 2CPU 8core
W5580 Quad-Core Xeon 3.20GHz 8MB-L3 QPI6.4GT/s (Nehalem-EP)
Intel 5520 Chipset、DDR3 1333MHz Reg 12GBメモリ (2GBx6)
Gaussian 03 E01 + (バイナリー版) (09.4.21)
2983 1506 790 439 - - - - -
14 HPC-ProServer DPrT7400 1node 2CPU 8core
X5482 Quad-Core Xeon 3.2GHz 2x6MB FSB1600MHz 45nm
Intel 5400 Chipset、DDR2 800MHz 64GBメモリ
RAID0 1.5TB XFS (SATA/500GB/7200rpm x3)
Gaussian 03 E01 + (バイナリー版) (08.8.1)
3429 1766 921 562 - - - - -
13 HPC-ProServer DPrT7400 1node 2CPU 8core
X5460 Quad-Core Xeon 3.16GHz 2x6MB FSB1333MHz 45nm
Intel 5400 Chipset、DDR2 667MHz 16GBメモリ
RAID0 1.5TB XFS (SATA/500GB/7200rpm x3)
Gaussian 03 E01 + (バイナリー版) (08.8.1)
- - 959 596 - - - - -
12 HPC-ProServer DPrT5400 1node 2CPU 8core
X5460 Quad-Core Xeon 3.16GHz 2x6MB FSB1333MHz 45nm
Intel 5400 Chipset、DDR2 667MHz 16GBメモリ
No-Raid XFS (SATA/500GB/7200rpm x1)
Gaussian 03 E01 + (バイナリー版) (08.8.1)
3488 1796 954 589 - - - - -
11 HPC-ProServer DPe1950III 1node 2CPU 8core
X5460 Quad-Core Xeon 3.16GHz 2x6MB FSB1333MHz 45nm
Intel 5000X Chipset、DDR2 667MHz 8GBメモリ
No-Raid ext3 (SATA/80GB/7200rpm x1)
Gaussian 03 E01 + (バイナリー版) (08.8.1)
3463 1782 932 591 - - - - -
10 HPC-ProServer DPeR900 (4way) 1node 2CPU 8core
X7350 Quad-Core Xeon 2.93GHz 2x4MB(L2) (no-L3) FSB1066MHz 65nm
Intel 7300 Chipset、DDR2 667MHz 128GBメモリ
No-Raid ext3 (SAS/1TB/7200rpm x1)
Gaussian 03 E01 + (バイナリー版) (08.10.9)
4311 2271 1221 702 - - - - -
9 HPC-ProServer DPrR5400 1node 2CPU 8core
X5430 Quad-Core Xeon 2.66GHz 2x6MB FSB1333MHz 45nm
Intel 5400 Chipset、DDR2 667MHz 16GBメモリ
No-Raid ext3 (SATA/250GB/7200rpm x1)
Gaussian 03 E01 + (バイナリー版) (08.9.30)
4391 2245 1161 732 - - - - -
8 HPC-ProServer DPrT7400 1node 2CPU 8core
X5482 Quad-Core Xeon 3.2GHz 2x6MB FSB1600MHz 45nm 
Intel 5400 Chipset、DDR2 800MHz 64GBメモリ
RAID0 1.5TB XFS (SATA/500GB/7200rpm x3)
Gaussian 03 E01 + (PGI 公式ビルド版) (08.3.27)
3596 1834 964 930 - - - - -
7 HPC-ProServer DPe1950III 1node 2CPU 8core
X5460 Quad-Core Xeon 3.16GHz 2x6MB FSB1333MHz 45nm
Intel 5000X Chipset、DDR2 667MHz 16GBメモリ
No-Raid ext2 (SATA 500GB/7200rpm x1)
Gaussian 03 E01 + (PGI 公式ビルド版) (08.4.7)
3637 1867 992 993 - - - - -
6 HPC-ProServer DPrT5400 1node 2CPU 8core
X5460 Quad-Core Xeon 3.16GHz 2x6MB FSB1333MHz 45nm
Intel 5400 Chipset、DDR2 667MHz 16GBメモリ
No-Raid XFS
Gaussian 03 E01 + (PGI 公式ビルド版) (08.1.17)
3673 1864 995 897 - - - - -
5 HPC-ProServer DPrT5400 1node 2CPU 8core
X5450 Quad-Core Xeon 3.0GHz 2x6MB FSB1333MHz 45nm
Intel 5400 Chipset、DDR2 667MHz 16GBメモリ
No-Raid XFS
Gaussian 03 E01 + (PGI 公式ビルド版) (08.1.22)
3861 1956 1027 1004 - - - - -
4 HPC-ProServer DPeT300 1node 1CPU 4core
X3363 Quad-Core Xeon 2.83GHz 2x6MB FSB1333MHz 45nm
Intel 5100 Chipset、DDR2 667MHz 6GBメモリ
Raid0 XFS
Gaussian 03 E01 + PGI 「公式ビルド」 (08.5.20)
3892 2000 1667 - - - - - -
3 HPC-ProServer DPeR300 1node 1CPU 4core
L5410 Quad-Core Xeon 2.33GHz 2x6MB FSB1333MHz 45nm
Intel 5100 Chipset、DDR2 667MHz 12GBメモリ
No-Raid XFS
Gaussian 03 E01 + (PGI 公式ビルド版) (08.5.30)
4588 2332 1693 - - - - - -
2 HPC-ProServer DPrT5400 1node 2CPU 8core
X5450 Quad-Core Xeon 3.0GHz 2x6MB FSB1333MHz 45nm
Intel 5400 Chipset、DDR2 667MHz 16GBメモリ
No-Raid XFS
Gaussian 03 D02 + (PGI 公式ビルド版) (08.1.10)
5218 2609 1362 1133 - - - - -
1 HPC-ProServer DPr490 1node 2CPU 8core
X5365 Quad-Core Xeon 3.0GHz 2x4MB FSB1333MHz 65nm
Intel 5000X Chipset、DDR2 667MHz 8GBメモリ
No-Raid XFS
Gaussian 03 D02 + (PGI 公式ビルド版) (07.9.28)
5752 2968 1691 1652 - - - - -

 

Gaussian 09 Rev. B.01の計算性能調査 (11.1.5〜11.1.7)

 Gaussian 09は2010年夏にRev. A.02からRev. B.01へとレビジョンアップされました。そのリリースノートには20箇所もの改善項目が記されています。そのなかに並列処理性能の向上も含まれています。その後Gaussian 09 B.01を利用された方々からテスト結果が寄せられ、幅広いプラットホーム上で、シリアル性能と並列性能の双方が高速化していることが確認できました。その状況をXeon DP、Opteron QP、Xeon QPのそれぞれについて整理しました。

Gaussian 09 Rev. A.02とRev. B.01の性能向上率を
Xeon DP、Opteron QP、Xeon QPで比較

 Gaussian 09 Rev. A.02とRev. B.01のシリアル処理性能と並列処理性能の向上率を、Gaussianの主要プラットホームでXeon DP、Opteron QP、Xeon QPで比較しました。その結果、各プラットホーム全体で5パーセントから17パーセントの性能向上が確認できました。レビジョンアップをするだけで総合的な性能向上が実現します。

 最初の比較はXeon X5660 2.80GHz 2CPU機です。この機種でのレビジョンアップによる性能向上率を確認します。比較結果はシリアル処理で5パーセント、2並列処理で7パーセント、4並列で8パーセント、8並列で7パーセント、12並列で6パーセントでした。このことからシリアル処理の性能向上率が5パーセントなのに対して、並列処理の性能向上率は2パーセントなのがわかりました。

 次の比較はOpteon 4CPU 48core機です。その結果はシリアル処理で11パーセント、2並列処理で7パーセント、4並列で8パーセント、8並列で8パーセント、12並列で9パーセント、24並列で12パーセント、48並列で17パーセントでした。Opteronの方はシリアル処理の性能向上率が非常に良いです。並列処理の性能向上率も素晴らしいです。しかし、Xeonと比較すると並列度が高い領域での効率が良ないことには留意が必要です。Opteronは低い並列度で高いスループットを発揮するシステムです。

 最後はXeon 4CPU機です。その結果はシリアル処理で0パーセント、2並列処理はデータ無し、4並列で7パーセント、8並列で6パーセント、16並列で9パーセント、32並列で15パーセントでした。シリアル処理の性能は措くとして、並列度が高くなると効率が良くなる傾向を示していす。Xeon 4CPU機は大並列で活躍するシステムですから、これは素晴らしい特性です。

 以上を振り返ると、レビジョンアップによりシリアル性能が高速化し、さらに並列も並列度が高い領域で効率が向上しています。性能面からみても素晴らしいレビジョンアップです。

Rev. B.01におけるプロセッサのクロック速度が上昇した場合の処理効率

 次はRev. B.01でのプロセッサのクロック速度が2.80GHzから3.33GHzへ上昇した場合の性能を確認します。(この場合のクロック速度の上昇率は19パーセント、価格の上昇率は19パーセントです。)

 初めにシリアル処理性能の上昇率を調べます。その結果は17パーセントでした。理想値が19パーセントですからこれは良い値です。3.33GHzのプロセッサを安心して選択できます。(なお経験的にGaussianのシリアル処理を複数同時平行処理した場合の性能劣化は僅かですから高いスループットが期待できます。)

 次にクロック速度を2.80GHzから3.33GHzへ変化させた場合の並列処理の上昇率を調べます。結果は2並列処理が16パーセント、4並列が15パーセント、8並列が12パーセント、12並列が10パーセントでした。理想値は19パーセントですから並列度が高くなると効率は半減しています。しかしこの程度の効率の低下であれば3.33GHzのプロセッサを導入する価値は十分にあります。

Rev. B.01でのXeon 2CPU機

 Gaussian用の計算機として考えるとXeon X5680 3.33GHz機は万能機です。並列計算で絶対性能を追及しても、シリアル処理でスループットを追及してもバランスの取れた性能とコストパフォーマンスが得られます。

 しかし、さらに高いスループットが必要な場合はOpteron 6174が優れています。あるいはさらに高い並列性能が必要な場合はXeon X7560が優れています。

Rev. B.01でのOpteron 4CPU機

 Gaussian用の計算機として考えるとOpteron 4CPU機は平行処理用の計算機と考えるべきシステムです。Opteron 4CPU機はXeon 2CPU機と同等のスループットを40パーセントも廉価に実現できます。

Rev. B.01でのXeon 4CPU機

 Gaussian用の計算機として考えるとXeon 4CPU機は大並列専用機と考えるべきシステムです。価格はXeon X5680 3.3GHzより90パーセントも高価ですが、性能も50パーセント高速です。超長時間計算が必要な場合はXeon 4CPU機は価値あるシステムです。

今後のシステム (プロセッサ) の展望

 2011年の初頭にSandy Bridgeと呼ばれる新しいマイクロアーキテクチャを採用した第2世代のIntel Coreプロセッサが "Intel Core-i7、Intel Core-i5、Intel Core-i3" シリーズとして発表されました。

 Sandy Bridgeの特徴はAVX (Advanced Vector eXtentions)と呼ばれる命令セットの追加です。これまでのNehalemマイクロアーキテクチャ世代のプロセッサはSSE4と呼ばれる128bit幅で処理する命令セットを搭載していました。AVXでは命令セットが256bit幅に拡張されました。その結果、従来のプロセッサコアでは64bitの倍精度浮動小数点演算を4命令同時実行可能であったものが、AVXでは8命令同時実行可能になっています。

 既にネット上に公開されているテスト結果を見ると倍精度浮動小数点演算でのシリアル処理の効率が約50パーセント向上している記述があります。この結果からAVXの256bit幅の演算は効果が得られることが確認できました。さらにAVXに対応した数値演算ライブラリ "Intel MKL" を使用することでさらに高い処理効率が期待できます。

・ 現 Xeon 1CPU 4core 3.33GHzの理論性能: 53GFLOPS
・ 現 Xeon 2CPU 6core 3.33GHzの理論性能: 160GFLOPS
・ 現 Xeon 4CPU 8core 2.27GHzの理論性能: 291GFLOPS
・ 新 newX 1CPU 4core 3.33GHzの推定理論性能: 107GFLOPS (今春)
・ 新 newX 2CPU 8core 3.33GHzの推定理論性能: 426GFLOPS (今秋)
・ 新 newX 4CPU 8core 2.83GHzの推定理論性能: 725GFLOPS (来春)

 しかし残念なことに最初に発売される "Intel Core-i7、Intel Core-i5、Intel Core-i3" シリーズのプロセッサは民生用のためメモリシステムはNon-ECC型です。そのため業務用に使うことはできません。暫くすると業務用に使えるECCに対応したSandy Bridge世代のXeonプロセッサが1プロセッサ型の製品から順番に登場します。今しばらくお待ちください。

Gaussianの開発環境であるPGIコンパイラはAVXに対応し、AVXに対応するIntel MKLを組み合わせて利用できる

 Gaussianのような商用アプリケーションが新しいCPUアーキテクチャに対応するためには時間がかかります。移植後の計算結果が正しいことは当然として、新たに判明した不具合箇所の解決にも万全を期す必要があるからです。

 Gaussianが開発プラットホームに採用しているPGIコンパイラはAVXに対応しています。またPGIコンパイラから利用できる数値演算ライブラリにIntel MLK (Math Kernel Library) が追加されました。MKLはIntelが自社で開発しているミドルウェアであり、Intelが「新しいアーキテクチャの性能を悉く引き出す性能を持つ」と公言する製品です。

 

Xeon MP (Nehalem-EX) 4CPU 32coreによる
Gaussianについての計算性能調査 (10.6.21)
Hybrid Clusterの勧めを追記 (10.7.14)

 Xeon MP (Nehalem-EX) 2.27GHz 4CPU 32core 機によるGaussianでの計算テスト結果が寄せられました。この報告で重要なことは、32並列でも並列化処理効率が上昇していることです。test397のような小規模な計算で大規模な並列処理を行っても性能が上昇しているということは、Nehalem-EX 4ソケット機の並列処理オーバーヘッドが小さいことがわかります。それは、大規模な並列計算では、さらに高い並列化効率が得られることを意味します。

 Nehalem-EX 4ソケット機は高価な計算機です。しかし、X86系の計算機のなかで最速の並列処理速度が得られます。さらに最大1TBの主メモリが搭載できること、高速・大容量のスクラッチディスクを内蔵できることなどから、巨大ジョブを少しでも高速に処理することを求められているお客さまには、優れた選択であることが確認できました。

 現在のNehale-EX は45nmプロセス技術を用いますが、近い将来には32nmプロセス技術に更新され、搭載コア数の増加や、クロック速度の高速化が期待され、test397を150秒台で処理できるところまで到達すると考えられます。

 現在Gaussianに適していると考えられるプロセッサはNehalem-EX、Westmere-EP、Magny-Cours の3種類です。これらのGaussianでの用法は次のようになります。

Nehalem-EX: 大並列ジョブの超高速処理
Westmere-EP: シリアルジョブと小・中並列ジョブの高速処理
Magny-Cours: シリアルジョブと小並列ジョブの並列・平行処理

 各計算機の特徴とコストパフォーマンスを考えるとこのような棲み分けが成立します。このことから、従来のクラスタのように、一種類の計算機に絞ってシステムを構成する方法よりも、ジョブに最適な計算機を組み合わせたハイブリッド式のクラスタも考慮に値します。

 すなわち、実際のGaussian計算は次の3種類に区分することができます。

大規模かつ高精度な計算
非並列が主体の処理
高いスループットが必要なパラメーターサーチ

 これらを1種類の汎用計算機で処理すると相性の問題が発生し効率が低下します。そこで計算機のハイブリッド化によってピーク性能とスループット性能の向上を経済的に実現できます。

 弊社ではこのようなご要望にお応えするため、異なる種類のプロセッサを搭載した "Hybrid Super Computer" の構築サービスを行っています。

Opteron (Magny-Cours) 4CPU 48coreについての
Gaussianによる計算性能評価 (10.6.3)

 AMD Opteron (Magny-Cours) 2.2GHz 4CPU 48core機についてのGaussianよるベンチマークテスト結果が寄せられました。このテスト結果で注目すべき点を幾つか挙げます。

 1番目の注目点は、48個のシリアルジョブを平行動作させた平均時間と、シリアルジョブを単独で動作させた時間の差が、僅かだということです。すなわち48個のジョブの平行動作の効率が良いということです。この傾向は並列度を増加させていっても大きく劣化していません。分かりやすくするため以下のようにグラフ化しました。縦軸は速度、横軸は並列度をあらわし、赤はジョブを1個だけ流したケース、青は全てのコアを用いて複数のジョブ数を流したケースです。双方を比較すると青い方のグラフの性能低下は僅かです。このことからわかることは、例えば、48コアの計算機に対して誰かが8並列ジョブを流しているところに、新規に8並列ジョブを投入しても、最初に投入した人のジョブが遅くなり迷惑を掛けるような事態は発生しないということです。これは共同利用計算機環境として重要な特性です。

 

 2番目の注目点は、複数の並列処理を同時投入した際のシステム全体の稼働率です。並列度を高くすると並列オーバーヘッドが大きくなり、稼働率が低下するので、速度とスループットのバランスを適当なレベルに維持する必要があります。またその場合には、計算規模が大きくなると並列オーバーヘッドの割合が下がることも意識しておく必要があります。

 以下に寄せられた結果をグラフ化しました。test397は計算規模が小さいため、並列度が高くなると、並列処理オーバーヘッドの影響が強くなり処理効率が急激に低下する傾向があります。グラフで「idle」と表記しているグレーの部分が空費されている演算資源です。小規模なジョブの場合には、並列度を高くすると空費部分が多くなるため、4〜8並列程度で利用し、平行処理数を多くしてスループットを稼ぐと経済的なことがわかります。

 3番目の注目点は、48並列ジョブを実施できている点です。先ほども述べましたがtest397のように規模の小さな計算は並列度を大きくすると並列オーバーヘッドの影響が強くなり並列化効率は精彩を欠きます。しかし、大規模な計算では計算処理時間の割合が急増するため並列オーバーヘッドの割合が少なくなり、並列化効率が向上します。上記グラフ中の「idle」と表記している部分が減少してゆきます。右に掲載しているグラフは並列オーバーヘッドの小さなLinpack HPL計算のものです。Gasuaainでも並列規模を大きくするに従って右グラフのような特性に近づいてゆきます。大規模な計算は並列化効率が改善されため48並列のような大並列の有効性が高くなります。

 前世代のAMD Opteronを利用してGaussian計算を行うことには積極的な理由が見出せませんでした。しかし、新AMD Opteron (Magny-Cours)を利用してGaussian計算を行うことには十分な価値があります。

 

【コラム】
計算機の高速化によってGaussianの計算速度が速くなると、計算の大規模化と計算手法の高度化が進みます。するとそれに伴い計算で利用するスクラッチファイルのサイズも大きくなり、スクラッチディスクの容量の大型化と高速化が求められます。もしスクラッチディスクが遅いと、スクラッチファイルのI/O時間が急増し、計算機の高速化による計算時間短縮の効果をスクラッチファイルのI/O時間の増大によって相殺してしまう可能性があります。このスクラッチディスクの高速化についても新プロセッサの登場による技術的な進展がありました。Nehalem MicroarchitectureはPCIバスの規格がPCI Express Version 2.0へとアップグレードしたことで、その転送速度が2倍に高速化されています。またRAIDコントローラも高速化し、SAS規格も3Gbpsから6Gbpsへと高速化しています。このようにスクラッチディスクを構成する全デバイスが揃って高速化したことで、シーケンシャルファイルのI/O速度は、ディスク12基によるRAID0にて書き込みが800MB/s、読み出しが1500MB/sという圧倒的な速度を記録してます。この速度があると、例えば1TBのファイルを100回読み書きする場合に、従来の200MB/sの転送速度を持つディスクで約270時間 (11日) も必要だった時間が、約46時間 (2日) にまで短縮することができます。計算機の高速化と併せてスクラッチディスクの高速を行うことを忘れずに行ってください。

Xeon (Westmere-EP) のGaussian 09による計算性能評価 (10.5.11)

 マルチコア化が進み6コアを搭載したXeon DP (Westmere-EP) 2プロセッサ12コア機によるGaussian 09での12並列ベンチマークテストの結果が寄せられました。このテスト結果で注目すべき点は8並列から12並列への並列性能の伸び方です。SPECベンチマークによる「CPU性能律速型アプリケーション」での12コアでの平行処理効率は理想的な伸びを示していました。したがって同種のアプリケーションであるGaussian 09も理論上は同様の伸びを示すことが期待されます。しかしSPECは並列処理ボトルネックの影響を測定していないので、実アプリケーションに適用する場合は裏付け調査が必要です。

 そこで寄せられた12並列のベンチマーク結果を確認しました。Westmere-EP 2.8GHz機による8並列の経過時間は471秒ですから12並列の理論値は353秒となります。これに対して実測値は355秒を記録しています。素晴らしい並列処理効率です。Xeon DP (Westmere-EP) 6Core 2CPU 12Core機はGaussian 09の並列処理において期待通りの性能が得られることがわかりました。

 次に最新の32nmプロセス技術で製造されたWestmere-EPと前世代の45nmプロセス技術で製造されたNehalem-EPの性能差を調査します。両者の大きな違いは3次キャッシュが8MBから12MBへの増加です。これの性能への影響を過去のデータと比較して調べてみましたが有意な差は確認できませんでした。

 また平行処理性能 (スループット性能) を評価したテスト結果も寄せられています。システムに搭載している12個のコアに対してシングルスレッドジョブを1ジョブ、4ジョブ、8ジョブ、12ジョブと順次増やして同時投入し、それぞれの場合の経過時間を測定した値です。その結果を見ると12ジョブの平行処理でも1ジョブ処理よりも約15パーセントした性能が低下していません。非常に高いスループット性能を持っていることがわかりました。

Xeon (Nehalem) でのGaussian 09の計算性能 (09.12.17)

 Xeon (Nehalem) でのGaussian 09によるテスト397のベンチマーク結果が寄せられました。このテストではGaussian 03がGaussian 09 へとメージャーバージョンアップしたことによる速度向上を期待していました。しかし結果はGaussian03の速度とほぼ同じでした。速度が変わらなかった理由として考えられることは、お客様が仰るには、「テスト397はベンチマーク用のインプットファイルとしては計算規模と計算内容が共に小さすぎるようになってしまい、Gaussian 09の評価を行うには適さなくなったのではないか」ということでした。ただし、テスト397はハードウェアの側を定点観測的に過去からの継続して評価できるという意味では価値があるそうです。

 また別の理由として、Gaussianはプログラミングの工夫による性能向上に関心が薄いことも挙げられます。プログラミングによる高速化に努めなくても、ハードウェアの性能向上がソフトウェアの速度を確実に押し上げることが分かっているからです。マルチコア化の勢いは強いです。現在は8コアが主流ですが、近い将来12コア、24コア、32コア、64コアの計算機なども製品化されるようです。過去の計算機で何時間も掛かっていた処理が、次の計算機では1分で終わるようになります。

 Gaussianの開発の優先順位は、新しい計算手法や計算機能の実装にあるようです。これらが実用化されると、これまで不可能であった計算が実行可能になるわけですからインパトクトは大きいです。その様子をテスト397では見ることができません。

 なお、今度のGaussian 09は初期バージョンから完成度が高く、Rev. A02は十分に実用に耐えるそうです。過去のメージャーバージョンアップのように、導入までかなりの時間をあける必要はないとのことです。

Xeon (Nehalem) での8並行処理の処理効率が96%に到達 (09.5.22)

Xeon (Nehalem) でのGaussian 03によるテスト397の8並列処理の並列処理効率は86%と非常に良い値をしてしています。

 今回は並列処理とは異なり、Gaussian 03 テスト397による平行処理のテスト結果が寄せられました。その平行処理効率はさらに良い値を出していました。8平行処理では驚きの96%という高い値でした

 これまで平行処理は「ジョブ数に比例して必要メモリ容量が増加する」という弱点を持っていました。従来の計算機はメモリ空間が限られているうえ、メモリが高価でしたから大容量メモリの搭載は躊躇されていました。

Xeon (Nehalem) 3.2GHz 2基搭載DPrT7500 (09.5.11)

 Xeon (Nehalem) シリーズ中、最高クロックで動作しているXeon (Nehalem) 3.2GHz W5580 2ソケット機によるGaussianテスト397の結果がよせられました。その性能をXeon (Nehalem) 2.93GHz X5570 2ソケット機の結果と比較すると、クロック速度比以上の実効性能が確認でき、Xeon (Nehalem) の処理効率の高さについての信頼がさらに増しました。

 そこで併せて、価格性能比の比較ができるように、定価ベースの値段上昇率も記載した一覧表を作成しました。すると、2.93GHz機から3.2GHz機への価格上昇率よりも、両機での性能上昇率の方が高いことが判りました。

項目 2.93GHz機の値 3.20GHz機の値 2.93GHzと
3.20GHzとの
変化率
CPUクロック速度 2.93GHz 3.20GHz 109%
T7500 24GBメモリ機の定価 922,950円 998,550円 108%
T5500 24GBメモリ機の定価 890,400円 967,050円 109%
シリアル処理での経過時間 3364 2983 113%
2並列計算での経過時間 1696 1506 113%
4並列計算での経過時間 884 790 112%
8並列計算での経過時間 489 439 111%

 

Xeon (Nehalem) 2.93GHz 2基搭載 DPeR610 (09.4.21-23)

 Xeon (Nehalem) を2個搭載するHPC-ProServer DPeR610によるGaussianの動作報告がよせられ、Xeon (Nehalem) が持つ高い並列処理能力により、テスト397の8並列計算が500秒以下の素晴らしい性能を確認できました。特に優れている点は、これまで並列性能に伸び悩みがみられた4並列から8並列についても高い並列化効率が確認されていることです。

Xeon 4基搭載 DPeR900 (08.10.9)

 4CPU搭載可能なXeon 4way Server HPC-ProServer DPeR900に、2CPUのみ搭載した8core構成にて、バイナリ版Gaussian並列計算を行われ高い並列性能が確認されました。

 テスト結果を見ると、1coreの計算速度は低めです。これはX7350 CPUが65nmプロセス世代であること、CPUクロックが2.93GHzであること、FSBが1066MHzであることなどの影響が複合したためだと考えられます。並列性能は、1並列から8並列まで順調な伸びを示しています。

DPrR5400 Q/C Xeon 2.66GHzで妥当な性能を確認 (08.9.30)

 HPC-ProServer DPrR5400はラックマウント型のワークステーションです。これまで手頃なGaussianクラスタ用のワークステーションとしては姉妹機であるHPC-ProServer DPrT5400を棚に載せる構成が人気でした。これに対してHPC-ProServer DPrR5400はラック搭載できるため、高い実装密度で設置が可能であり、設置場所の悩みを解消できます。

 Gaussianのテストは2.66GHzで行われました。そのため見かけ上の性能は低いですが、並列化効率も高く、クロック速度比換算でも妥当な性能が出ています。

高速なバイナリー版Gaussian 03利用の勧め (08.8.1)

Gaussian 03 E01 (バイナリー版) は8並列計算で素晴らしい性能が確認された

 過去のGaussian 03 D02 (バイナリー版) は8並列では動作しませんでした。これがGaussian 03 E01になると、8並列動作が実現されただけでなく、高速な並列速度も確認されました。

Gaussian 03 E01 (バイナリー版) 利用のメリット

 Gaussian 03 E01 (バイナリー版) は性能面が優れているのみならず、Lindaライセンスと同時購入することでLinda並列を利用できます。さらに「アカデミック版のバイナリーコード 単一UNIXマシンタイプ サイトライセンス」は約38万円で新規導入が可能と廉価です。また、同一敷地の同一組織内でサイトライセンスを導入済みの場合は非常に経済的な導入が可能です。

■ Gaussian 03 / GaussView ソフトウェアライセンス価格表を開く

安心して導入できる公式版Gaussian 03 E01 (バイナリー版)

 Gaussianなどのようにソースコードレベルで公開されているアプリケーションは、ソフトウェア環境の一貫性の維持に高い優先順位が与えられています。Gaussian社は伝統的にIA Linux環境ではPGIコンパイラを標準にしています。その制約下でGaussian社が性能向上に努力し、高い並列性能を発揮する公式バイナリーが公開されたことは素晴らしいことです。

Gaussian 03 E01 (バイナリー版)は大規模計算でも安定動作かつ高速

 test397は計算規模と精度の確認用としては小さすぎます。幸いなことに、お客様から報告が寄せられ、Gaussian 03 E01 (バイナリー版) は大規模かつ現実的な計算でも安定動作していることが確認できたそうです (計算内容は非公開)。また性能面でも良い性能が確認できたとのことでした。

Xeon 53xxシリーズ 2CPU 8core Xeon 54xxシリーズ 2CPU 8core
Gaussian 03 D02 (PGI 公式ビルド版) Gaussian 03 E01 (バイナリー版)
20 時間 18 時間

 

CPUクロック速度とコア数がGaussianの演算性能を決定

 現在のXeonプラットホームでは、CPUクロック速度とコア数がGaussianの演算性能を決定しており、FSBクロック周波数、メモリクロック周波数、チップセットなどの違いは性能に影響しないことがベンマチークテストから明らかになっています。

Gaussian 03 E01 (PGI 公式ビルド版) による
L5410 Xeon 2.33GHz 1Way機の評価 (08.5.30)

 45nmプロセス採用の「L5410 Quad-Core Xeon 2.33GHz」搭載の1Wayサーバ「HPC-ProServer DPeR300」の導入テスト結果が寄せられました。「Gaussian 03 E01 PGI 版」の演算性能をみると、4コア並列において「L5410 Quad-Core Xeon 2.33GHz」と「X3363 Quad-Core Xeon 2.83GHz」での性能差は僅差でした。このようにクロック速度の効果が乏しいため、価格性能比の高さが求められるエントリー機には2.33GHz搭載機がお勧めとなります。

Gaussian 03 E01 (PGI 公式ビルド版) による
X3362 Xeon 2.83GHz 1Way機の評価 (08.5.20)

 45nmプロセス採用の「X3362 Quad-Core Xeon 2.83GHz」搭載の1Wayサーバ「HPC-ProServer DPeT300」の導入テストにおいて「Gaussian 03 E01 PGI 版」の演算性能が確認されました。1CPU 2コアは良い性能ですが4コアになると並列化効率が少し低下していますが、それでも上昇は続いているので4コア機が優れています。

公式ビルドGaussianの利用

Gaussianの利用

 Gaussian社が公表しているサポートプラットホーム上でGaussianを利用することにより、ユーザは共通のソフトウェア環境上で使用することとなり、新しい考え方や、計算の検証、利用方法、不具合情報など、多くの情報を公開し共有することができます。Gaussianはこのような環境によって育まれ発展してきた歴史を持ち、現在ではGaussianはサイエンスの基盤として安心して利用できるようになっています。Gaussianを使うということはGaussian利用者社会に参加し、その社会の一員として共有財産を利用することでもあります。

ソースコード提供のGaussianを利用するメリット

 Gaussianはソースコードで提供されています。このソースコードでGaussianを利用すると幾つかのメリットが得られます。1番目は各種プラットホームへの移植性の高さです。ソースコードで提供されることで幅広いプラットフォームに容易に対応できます。2番目は動作環境の変化への追従性の高さです。ハードウェアや開発環境が変化しても再コンパイルだけで迅速に追従でき最適な利用環境を実現できます。3番目はGaussianのバージョンアップの展開が迅速になることです。随所で使われている多様なプラットフォームに対して素早く的確にGaussianのバージョンアップを反映させることができます。4番目はGaussianの改良にも効果的なことです。利用者がGaussianの問題を見つけた場合には問題の所在の特定が容易なため報告も正確に行えます。このようにGaussianのソースコードによる提供は多くのメリットがあります。そこで、そのメリットを最大化しデメリットを最小化するため、基本的な利用ルールをGaussian社が規定しています。

公式ビルド版 Gaussian 03

 ソースコード版のGaussianを利用するための環境や手順はGaussian社が詳細に指定しています。全てのGaussian利用者はこの共通基盤の上で作業を行うことで正確な情報交換が保証されます。Gaussianを使用する場合にはこの指定に従う必要があります。Linux上で指定されている開発環境はPGIコンパイラ、Linux OSはRedHatあるいはSuSEとなっています。

バイナリー版 Gaussian 03

 Gaussianにはバイナリー版も存在します。Gaussianのサイトライセンスをお持ちの場合には、同じ住所の同じ組織であれば誰でもGaussianをインストールし利用することができます。バイナリ版のCDメディアの入手は比較的容易です。導入に際しては弊社が親切にサポートします。本格的にGaussianの利用を目指されるのならソースコード版のGaussianをインストールされることをお勧めしますが、ソースコードレベルにまで踏み込んだ調査は行わず、単なるユーザとして利用されるだけでしたら、コンパイラを必要としないバイナリー版のGaussianの導入は優れた選択です。

OS License Type CPU 32/64bit Shared Memory Parallel Linda Parallel
Linux Gaussian 03 Intel 64bit Y Y

Windows版 Gaussian 03

 Windowsマシン上で動作するGaussian03Wには32bitの制限があり、メモリサイズは2GB、スクラッチディスクサイズは16GBが上限となっており、これを超える大規模な計算は動作しません。また、シリアル計算版は並列処理による高速化が行えません。またマルチコア版も4並列までに制限されており、高速化に限界があります。

OS License Type CPU 32/64bit Shared Memory Parallel Linda Parallel
Windows Gaussian 03W Serial (Single CPU) Version Intel 32bit N N
Gaussian 03W Parallel Version Intel 32bit Y (4core) Y

Mac版 Gaussian 03

 Mac版のGaussianは数種類存在しているので注意が必要です。

OS License Type CPU 32/64bit Shared Memory Parallel Linda Parallel
Mac Gaussian 03M PowerPC 32bit N Y
Gaussian 03IM Intel 32bit N N
Gaussian 03 IA32 32bit Y Y
Gaussian 03 EM64T 64bit Y Y

 

※Linda並列にはLindaライセンスが必要です。

Gaussianの動作環境の現状をベンチマークにより理解

Gaussianの速度向上は動作環境側の改善で実現

 Gaussianでは処理速度の向上は大きな課題です。この課題の解決はハードウェアや開発環境の改善による高速化が受け持っています。幸いなことに計算機の性能向上競争は激しく繰り広げられており、その成果は確実に利用者の手元に届いています。また、実行可能な計算規模についてもシステムの64bit化やメモリの低価格と大容量化、HDDの大容量化と高速化により着実に拡大しています。

Gaussianは安定稼動する高スループット環境での利用が基本

 Gaussianの高速化を考えると、安定動作する計算機による高スループット環境の実現が効果的であることに気付きます。Gaussianのように長期間連続動作するジョブでは、計算機が安定稼動すると能率が向上し高い成果が得られます。高スループットを実現する際のチェックポイントは、納期が正確なこと、導入直後から本格運用できること、故障が少ないこと、故障しても迅速なオンサイト修理サービスですぐに復旧すること、判らないことで問い合わせをしても直ぐに的確な回答が得られることなどを挙げることができます。

「良い開発環境」の搭載

 Gaussianの高速化では「良い開発環境」の搭載も重要です。計算機に正しく開発環境がインストールされていればGaussianのビルドは容易に行え、正しい計算を実行でき、正しい計算結果が得られます。さらに適切な計算速度と計算規模が得られます。この状態で計算を行うことが重要です。ここで大切なのは「良い開発環境」の構築ですが、これは難しい作業です。そこで弊社では「良い開発環境」の搭載に力をいれています。なお、「良い開発環境」が搭載されているシステムではGaussianのビルドも容易なため、Gaussianのアップグレードへの追従も迅速に行えます。

標準的な構成での性能データの評価

 計算機は改良サイクルが速く、突如として性能向上する場合があります。この成果を迅速に取り入れるためには、標準的な構成での性能データの評価が大切です。弊社では実際にお客様が導入された構成でのテスト結果を収集しこれを随時更新することで、お客様のシステム選定の便をはかっています。