HPC Technologies
HPCテクノロジーズ株式会社
High Performance Computing で科学技術計算をサポート
・HPCTテクニカルセンター ・製品カタログ ・プライスリスト ・ベンチマーク ・採用情報
Top > Benchmark Tests > nbody Benchmark

nbody Benchmark
cuda に含まれるサンプルプログラム 「nbody」 ベンチマーク (cuda/samples/5_Simulations/nbody) を利用して、実効性能を評価します。このベンチマークプログラムは、単精度、倍精度のGPU演算、及び、GPUを使用しないCPUのみの演算について、GFlops値で結果が表示されるため、GPUの性能を理解するのに大変便利です。
nbody プログラムの挙動
以下のコマンドを実行した場合の、OS及びGPUの挙動を説明します。
./nbody -benchmark -numbodies=2048000 -numdevices=2
OS上からは、1プロセス1スレッドのプログラムとして認識されます。
FP16,FP32,FP64,INTのBenchmark
結果はこちら

GPUでは、-numdevices で指定された数だけGPUを使用して実行されます。

nbody プログラムは、オプションを指定することで、単精度、倍精度、及び CPUのみでの実行をすることができます。
以下は、オプションの一覧です。
# ./nbody
Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
-fullscreen (run n-body simulation in fullscreen mode)
-fp64 (use double precision floating point values for simulation)
-hostmem (stores simulation data in host memory)
-benchmark (run benchmark to measure performance)
-numbodies=<N> (number of bodies (>= 1) to run in simulation)
-device=<d> (where d=0,1,2.... for the CUDA device to use)
-numdevices=<i> (where i=(number of CUDA devices > 0) to use for simulation)
-compare (compares simulation results running once on the default GPU and once on the CPU)
-cpu (run n-body simulation on the CPU)
-tipsy=<file.bin> (load a tipsy model file for simulation)
ベンチマーク結果
値は、GFlops。各テストを5回実行し、その平均値を取りました。
GPUを使用したテストでは、-numbodies=204800 で実行。GPUを使用しないCPUのみのテストでは、-numbodies=20480 で実行。
fp32 = 単精度浮動小数点演算性能、fp64 = 倍精度浮動小数点演算性能
number of GPU devices = 0 のカラムは、GPUを使用せず1個のCPUコアで実行した場合の演算性能
動作環境
test[1-4]
HPC-ProServer DPeR730
CPU : Intel Xeon E5-2690 v4 2個
Mem : 128GB (8x16GB RDIMM 2400MT/s)
HDD : 2 x 300GB 10krpm SAS RAID1
OS : CentOS 7.2.1511
NVIDIAドライバ : 375.26
CUDA 8.0
2016年12月実施
test[5-6]
HPC-ProServer DPeR730
CPU : Intel Xeon E5-2690 v4 2個
Mem :64GB (8x8GB RDIMM 2400MT/s)
HDD : 2 x 300GB 10krpm SAS RAID1
OS : CentOS 6.8
NVIDIAドライバ : 375.20
CUDA 8.0
2017年1月実施
test[7]
HPC-ProServer DPeR730
CPU : Intel Xeon E5-2690 v4 2個
Mem :64GB (8x8GB RDIMM 2400MT/s)
HDD : 2 x 300GB 10krpm SAS RAID1
OS : CentOS 6.8
NVIDIAドライバ : 361.42
CUDA 8.0
2017年1月実施
test[8]
HPC-ProServer DPrT7910
CPU : Intel Xeon E5-2680 v3 2個
Mem :64GB (8x8GB 2133MHz DDR4 RDIMM ECC)
HDD : 2 x 300GB 10krpm SAS RAID1
OS : CentOS 7.2
NVIDIAドライバ : 375.20
CUDA 8.0
2017年2月実施
test[9]
HPC-ProServer DPeT630
CPU : (2) Intel Xeon E5-2687W v4 3.0GHz (TDP:160W)
Mem : 768GB (24) 32GB RDIMM 2400MT/s 2R x4 DataWidth ※1866MHz動作
HDD : (2) 300GB SAS 10krpm RAID1
HDD : (5) 4TB NLSAS 7.2krpm RAID6
Network : (1) On-Board LOM 1GBE デュアルポート
Network : (1) QLogic 57810 デュアルポート 10Gb DA/SFP+
GPU : (4) NVIDIA Geforce GTX 1080 Ti
PSU : 非冗長電源ユニット (2+0) (2) 1100W
NVIDIAドライバ : 378.13
CUDA 8.0
2017年4月実施
消費電力実測:1381W ※電源構成がイレギュラーのため、あくまで参考に留めてください。