Top > Benchmark Tests > nbody Benchmark

nbody Benchmark

cuda に含まれるサンプルプログラム 「nbody」 ベンチマーク (cuda/samples/5_Simulations/nbody) を利用して、実効性能を評価します。このベンチマークプログラムは、単精度、倍精度のGPU演算、及び、GPUを使用しないCPUのみの演算について、GFlops値で結果が表示されるため、GPUの性能を理解するのに大変便利です。

nbody プログラムの挙動

以下のコマンドを実行した場合の、OS及びGPUの挙動を説明します。

./nbody -benchmark -numbodies=2048000 -numdevices=2

OS上からは、1プロセス1スレッドのプログラムとして認識されます。

FP16,FP32,FP64,INTのBenchmark
結果はこちら

GPUでは、-numdevices で指定された数だけGPUを使用して実行されます。

​nbody プログラムは、オプションを指定することで、単精度、倍精度、及び CPUのみでの実行をすることができます。

​以下は、オプションの一覧です。

# ./nbody
Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
        -fullscreen       (run n-body simulation in fullscreen mode)
        -fp64             (use double precision floating point values for simulation)
        -hostmem          (stores simulation data in host memory)
        -benchmark        (run benchmark to measure performance)
        -numbodies=<N>    (number of bodies (>= 1) to run in simulation)
        -device=<d>       (where d=0,1,2.... for the CUDA device to use)
        -numdevices=<i>   (where i=(number of CUDA devices > 0) to use for simulation)
        -compare          (compares simulation results running once on the default GPU and once on the CPU)
        -cpu              (run n-body simulation on the CPU)
        -tipsy=<file.bin> (load a tipsy model file for simulation)

ベンチマーク結果

​値は、GFlops。各テストを5回実行し、その平均値を取りました。

GPUを使用したテストでは、-numbodies=204800 で実行。GPUを使用しないCPUのみのテストでは、-numbodies=20480 で実行。

fp32 = 単精度浮動小数点演算性能、fp64 = 倍精度浮動小数点演算性能

number of GPU devices = 0 のカラムは、GPUを使用せず1個のCPUコアで実行した場合の演算性能

動作環境

test[1-4]

HPC-ProServer DPeR730

CPU : Intel Xeon E5-2690 v4 2個

Mem : 128GB (8x16GB RDIMM 2400MT/s)

HDD : 2 x 300GB 10krpm SAS RAID1

OS : CentOS 7.2.1511

NVIDIAドライバ : 375.26

CUDA 8.0

2016年12月実施

test[5-6]

HPC-ProServer DPeR730

CPU : Intel Xeon E5-2690 v4 2個

Mem :64GB (8x8GB RDIMM 2400MT/s)

HDD : 2 x 300GB 10krpm SAS RAID1

OS : CentOS 6.8

NVIDIAドライバ : 375.20

CUDA 8.0

2017年1月実施

test[7]

HPC-ProServer DPeR730

CPU : Intel Xeon E5-2690 v4 2個

Mem :64GB (8x8GB RDIMM 2400MT/s)

HDD : 2 x 300GB 10krpm SAS RAID1

OS : CentOS 6.8

NVIDIAドライバ : 361.42 

CUDA 8.0

2017年1月実施

test[8]

HPC-ProServer DPrT7910

CPU : Intel Xeon E5-2680 v3 2個

Mem :64GB (8x8GB 2133MHz DDR4 RDIMM ECC)

HDD : 2 x 300GB 10krpm SAS RAID1

OS : CentOS 7.2

NVIDIAドライバ : 375.20 

CUDA 8.0

2017年2月実施

test[9]

HPC-ProServer DPeT630

CPU : (2) Intel Xeon E5-2687W v4 3.0GHz (TDP:160W)
Mem : 768GB (24) 32GB RDIMM 2400MT/s 2R x4 DataWidth ※1866MHz動作
HDD : (2) 300GB SAS 10krpm RAID1
HDD : (5) 4TB NLSAS 7.2krpm RAID6
Network : (1) On-Board LOM 1GBE デュアルポート
Network : (1) QLogic 57810 デュアルポート 10Gb DA/SFP+
GPU : (4) NVIDIA Geforce GTX 1080 Ti
PSU : 非冗長電源ユニット (2+0) (2) 1100W 

NVIDIAドライバ : 378.13

CUDA 8.0

2017年4月実施

​消費電力実測:1381W ※電源構成がイレギュラーのため、あくまで参考に留めてください。

© 2006-2019 HPC Technologies Co., Ltd. All rights reserved.