HPC-ProServer DPeR815
理論演算性能単価のスコアが最も高い計算機
AMD Opteron 6200番台 (Interlagos) プロセッサを4個搭載できる2Uサーバ
4個の16コアプロセッサにより64コア機を実現
16GB DIMMを32個搭載することで512GBメモリを実現
16チャネルのDDR3メモリにより205GB/sのメモリバンド幅を実現
2.5インチHDDを最大6台搭載でき3TBのディスク容量を実現
Single Port 10GBASE-TとDual Port 10GBASE-SFP+に対応
3年間のオンサイト保守と技術支援を無償で実施
インテルのサーバ戦略の特徴は、2ソケットサーバを "Efficient Performance" と位置づけコストパフォーマンスを向上させ、4ソケットサーバを "Expandable" と位置づけ拡張性を向上させる方針を採用していることです。この方針によって両者の間には大きな価格差が生じています。そのためコストパフォーマンスを重視するHPC計算分野では2ソケットサーバを利用したクラスタ機が主流となり、高価な4ソケットサーバはOpenMPを使った大規模並列計算や大容量メモリを利用する計算に限って利用されています。
これに対してAMDのサーバ戦略の特徴は、2ソケットサーバと4ソケットサーバの間の価格差を取り払い、4ソケットサーバを "Efficient Performance" と位置づけ、コストパフォーマンスを徹底的に追及する方針を採用していることです。具体的には12コア・プロセッサを製品化し、プロセッサと4ソケットサーバ本体の価格を共に安価に設定しています。
この戦略によって、AMDの4ソケットサーバは競合他社の2ソケットサーバを上回るコストパフォーマンスを実現しています。さらに48コア機は、48並列のOpenMP計算が可能になり、インフィニバンドも必要ありません。また広いメモリ帯域幅と大容量メモリも廉価に利用できます。コストパフォーマンスだけでなく4ソケットサーバとしての利用価値の高さも兼ね備えています。
では実際にAMDの4ソケットサーバはどれくらい優れているのでしょうか。それを定量的に把握するため競合する他の計算機と、CPU性能単価とメモリ性能単価について比較した表をまとめました。
この表はAMDの4ソケットサーバであるOpteron 6174 2.3GHz 12-core 4CPU 48-core (440GFLOPS) 128GB-Memサーバを比較元として、これに対抗する計算機を比較元に近い内容で構成し (含クラスタ)、それぞれのCPU性能単価とメモリ性能単価を求めたものです。
最初に表の横方向の項目を説明します。
・ 1番左の欄はシステムの構成
・ 2番目はシステムの価格
・ 3番目はCPUの総理論性能
(CPU性能律速型アプリはこの値に比例したスループット)
・ 4番目はメモリの総帯域幅 (メモリ性能律速型アプリはこの値に比例したスループット)
・ 5番目はCPUの性能単価
(CPU性能律速型アプリのコストパフォーマンス)
・ 6番目はメモリの性能単価
(メモリ性能律速型アプリのコストパフォーマンス)
(なお新アーキテクチャのSandy Bridgeは開発環境の最適化が始まったばかりなので、カッコ内に現アーキテクチャでの理論性能を記載しています。またGPGPUもカッコ内に推定実効性能を記載しています。また全ての値は参考値です)
| Opteron 6174 2.3GHz 4CPUサーバを評価するため それに準拠した構成の計算による CPU性能単価とメモリ性能単価の比較表 |
|||||
| システムの構成 | 価格 (万円) |
CPU性能 (GFLOPS) |
メモリ性能 (GB/s) |
CPU性能単価 (円/GFLOPS) |
メモリ性能単価 (円/GB/s) |
| Opteron 6174 2.3GHz 12-core 128GB-Mem 1node 4CPU 48-core 128GB-Mem |
210 | 440 | 170 | 4,800 | 12,400 |
| Xeon E7-4870 2.40GHz 10-core 128GB-Mem 1node 4CPU 40-core 128GB-Mem |
410 | 380 | 170 | 10,800 | 24,100 |
| Xeon E7-4850 2.00GHz 10-core 128GB-Mem 1node 4CPU 40-core 128GB-Mem |
270 | 320 | 170 | 8,400 | 15,900 |
| Xeon X5690 3.46GHz 6-core 48GB-Mem 2node 4CPU 24-core 96GB-Mem |
240 | 330 | 128 | 7,300 | 17,800 |
| Xeon X5675 3.06GHz 6-core 48GB-Mem 3node 6CPU 36-core 144GB-Mem |
340 | 440 | 192 | 7,700 | 17,700 |
| (Sandy Bridge) Xeon E3-1280 3.50GHz 4-core 32GB-Mem 4node 4CPU 16-core 128GB-Mem |
400 | 440 (220) |
84 | 9,100 (18,200) |
47,600 |
| GPGPU M2050 + 2CPU WS 1node 2GPGPU (カッコ内は推定実効性能) |
160 | 1000 (400) |
340 | 1,600 (4,000) |
4,700 |
つぎに縦方向に並べた各サーバについて詳しく確認します。
2番目と3番目のシステムは、インテルの4ソケットサーバです。実はインテルの4ソケットサーバは価格帯が2階層になっています。クロック速度の高いプレミアム・プロセッサと、クロック速度の低いエコノミー・プロセッサです。実際の価格差はXeon E7-4780 2.4GHz 4CPU機とXeon E7-4850 2.00GHz 4CPU機を比較すると140万円にもなります。そのためXeon E7-4850 2.00GHzの4ソケットサーバのコストパフォーマンスはXeon 2ソケットサーバと並びます。(AMDの価格戦略に合わせているようです) HPC計算分野ではこのプロセッサが適しています。しかし、この価格でもAMDの4ソケットサーバには追いつけません。CPU性能価単価は1.7倍も高価で、メモリ性能単価も1.3倍も高価です。スループットはAMDが上回っています。
4番目と5番目のシステムは、インテルの2ソケットサーバを使ったクラスタです。CPU性能価単価は1.5倍も高価で、メモリ性能単価も1.4倍も高価です。スループットはAMDが上回っています。インテルプロセッサが勝るのはクロック速度の高さを活かしたシリアル処理の絶対性能の高さです。
6番目のシステムは、新アーキテクチャのSandy Bridgeの1ソケットサーバを使ったクラスタです。Sandy Bridgeはまだコストパフォーマンスが良くありません。それには次のような理由のためです。すなわち1ソケットサーバは割高になること、コアの集積度が4コアと低いこと、開発環境が開発中であり本来の性能がまだ発揮されていないことなどによります。近い将来、2ソケットサーバが発売され、コアの集積度が向上し、開発環境が最適化すると、価格性能比は急速に向上すると考えられます。期待値としては4000円/GFLOPSを達成してほしいものです。
7番目のシステムは、2枚のGPGPUです。GPGPUのコストパフォーマンスは相対的に低下しつつあります。海外のレポートを見るとGPGPUは単体コアと比較して速いとは褒められていますが、4ソケットサーバと比較して速いと褒められたところは見ていません。しかもGPGPU計算機と4ソケットサーバの価格差も小さくなっています。実を取るならAMDということになります。
これまでの比較でAMDの4ソケットサーバは、インテルの2ソケットサーバと4ソケットサーバのそれぞれに対して、CPU性能単価でもメモリ性能単価でも大幅に上回っていることが確認できました。スループットだけを考えるならAMDの4ソケットサーバが優れています。
AMDの4ソケットサーバの欠点はプロセッサの動作クロック速度が低いため、コア単体の絶対性能が低いことです。並列化されていないアプリケーションの絶対性能が必要な場合はAMDの4ソケットサーバよりもインテルの高速ロックな2ソケットサーバが優れています。HPC計算機ではこの能力も非常に重要です。
実は弊社のサーバ製品の価格表にはCPU性能単価とメモリ性能単価を記載しています。上に掲載した表もこの価格表から転記した値です。システムを選択する際にはぜひこの値を参考していただくと幸いです。