Core(TM) i7は、Intel(R)が現行のIntel(R) Core 2 Microarchitectureを刷新するため新しく開発したNehalem Microarchitectureを採用した、最初の市販マイクロプロセッサです。Nehalemの特徴は、コアの内部が改良されたことにより、「メモリ性能依存型」のアプリケーション (流体計算や電磁界解析など) については単体コアでは1.5倍から2倍の性能向上が、複数ジョブの並行処理では約3倍300%ものスループット向上が確認されています。また少し残念なことに、従来からXeon (R) が得意としていた「CPU性能依存型」のアプリケーション (量子化学計算や分子動力学計算など) については、単体コア性能でもスループット性能でも性能向上は小さなものでした。
それ程の性能ならすぐにもCore(TM) i7を導入しHPC用として利用したいものです。しかし、Core(TM) i7シリーズは家庭用やゲーム用のプロセッサとして製品化されたため、HPC計算機に必須のECCメモリには対応していません。残念ですが、Nehalemアーキテクチャを採用したHPC計算機を本格導入するためにはECCメモリに対応したワークステーション版やサーバー版プロセッサの発売を待たなければなりません。
本格導入はECCメモリ搭載版の製品を待つとしても、Nehalem Microarchitectureの性能予備調査は行っておきたいものです。これについては幸いにも、Core(TM) i7はワークステーション版やサーバー版と近い性能特性のようです。そこでSPEC CFP2006に公開されているCore(TM) i7のベンチマーク結果を用いて単体CPUの性能評価を行うことにしました。
SPEC CFP2006には膨大なテストデータが掲載されており、必要な部分を見つけることも容易ではありません。そこで評価に必要なデータだけを抜粋し一覧表にしました。なお、表が大きいので印刷すると字が小さい場合は、印刷方向を「横向き」に指定すると見やすく印刷できます。
| Core(TM) i7 | SPEC CFP2006 Rates (並行処理性能) | SPEC CFP2006 (単体コア性能) | ||||||||||||||||||||||
| 型番 | i7-2S 推定品 |
DPe R905 |
DPe R900 |
i7-1S 推定品 |
asas p6t |
asas p6t |
asas p6t |
asas p6t |
DPe R805 |
DPr T7400 |
DPe 1950III |
DPe R300 |
i7-2S 推定品 |
DPe R905 |
DPe R900 |
i7-1S 推定品 |
asas p6t |
asas p6t |
asas p6t |
asas p6t |
DPe T605 |
DPr T7400 |
DPe 2900III |
DPe R300 |
| CPU | i7-2S | Opteron | Xeon | i7-1S | コアi7 | コアi7 | コアi7 | コアi7 | Opteron | Xeon | Xeon | Xeon | i7-2S | Opteron | Xeon | i7-1S | コアi7 | コアi7 | コアi7 | コアi7 | Opteron | Xeon | Xeon | Xeon |
| 製造プロセス | - | 45nm | 45nm | - | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | - | 45nm | 45nm | - | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm | 45nm |
| CPU番号 | - | 8384 | X7460 | - | 965 | 965 | 940 | 920 | 2384 | X5492 | X5470 | X5470 | - | 8384 | X7460 | - | 965 | 965 | 940 | 920 | 2384 | X5492 | X5470 | X5470 |
| CPUクロック(GHz) (FSBクロック) |
推定値 3.2GHz |
2.7GHz | 2.66GHz | 推定値 3.2GHz |
3.2GHz | 3.2GHz | 2.93GHz | 2.67GHz | 2.7GHz | 3.4GHz (F1600) |
3.33GHz | 3.33GHz | 推定値 3.2GHz |
2.7GHz | 2.66GHz | 推定値 3.2GHz |
3.2GHz | 3.2GHz | 2.93GHz | 2.67GHz | 2.7GHz | 3.4GHz (F1600) |
3.33GHz | 3.33GHz |
| チップセット | - | - | 7300 | - | X58 | X58 | X58 | X58 | - | 5000X | 5000X | 5100 | - | - | 7300 | - | X58 | X58 | X58 | X58 | - | 5400 | 5000X | 5100 |
| メモリ(MHz) | - | 800MHz | 667MHz | - | 1066MHz | 1066MHz | 1066MHz | 1066MHz | 800MHz | 800MHz | 667MHz | 667MHz | - | 800MHz | 667MHz | - | 1066MHz | 1066MHz | 1066MHz | 1066MHz | 800MHz | 800MHz | 667MHz | 667MHz |
| OS | Linux | Linux | Linux | Linux | Linux | WinVis | WinVis | WinVis | Linux | WinVis | Linux | Linux | Linux | Linux | Linux | Linux | Linux | WinVis | WinVis | WinVis | Linux | WinVis | Linux | Linux |
| コンパイラ | Intel11.0 | PGI7.2 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | PGI7.2 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | PGI7.2 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | Intel11.0 | PGI 7.2 | Intel11.0 | Intel11.0 | Intel11.0 |
| CPU 数 | 2 | 4 | 4 | 2 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 1 | 2 | 4 | 4 | 2 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 1 |
| コア数 | 4 | 4 | 6 | 4 | 4 | 4 | 4 | 4 | 2 | 4 | 4 | 4 | 4 | 4 | 6 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
| 総コア数 | 8 | 16 | 24 | 8 | 4 | 4 | 4 | 4 | 8 | 8 | 8 | 4 | 8 | 16 | 24 | 8 | 4 | 4 | 4 | 4 | 8 | 8 | 8 | 4 |
| 投入ジョブ数 | 16 | 16 | 24 | 16 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 4 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
| SPECfp base値→ 各経過時間(秒)↓ |
以下 推定値 200 |
188 | 142 | 以下 推定値 100 |
99.1 | 82.9 | 79.2 | 76.0 | 104 | 85.0 | 74.7 | 49.3 | 以下 推定値 37.4 |
18.6 | 22.0 | 以下 推定値 37.4 |
37.4 | 31.7 | 29.5 | 27.7 | 18.8 | 25.8 | 25.0 | 23.9 |
| bwaves | 1170 | 1448 | 5198 | 1170 | 1170 | 1466 | 1486 | 1488 | 1044 | 2507 | 3201 | 1845 | 152 | 556 | 289 | 152 | 152 | 190 | 194 | 195 | 548 | 320 | 399 | 475 |
| gamess | 1378 | 1173 | 991 | 1378 | 1378 | 1688 | 1827 | 2013 | 1168 | 808 | 789 | 787 | 834 | 1173 | 1119 | 834 | 834 | 1115 | 1214 | 1312 | 1170 | 883 | 864 | 821 |
| milc | 833 | 1183 | 3172 | 833 | 833 | 1021 | 1021 | 1025 | 941 | 2173 | 1981 | 1409 | 235 | 478 | 811 | 235 | 235 | 248 | 270 | 279 | 460 | 758 | 559 | 520 |
| zeusmp | 649 | 730 | 1579 | 649 | 649 | 719 | 783 | 813 | 650 | 779 | 979 | 665 | 234 | 571 | 495 | 234 | 234 | 254 | 277 | 294 | 563 | 376 | 419 | 390 |
| gromacs | 531 | 478 | 464 | 531 | 531 | 605 | 659 | 715 | 473 | 325 | 350 | 324 | 306 | 469 | 405 | 306 | 306 | 331 | 361 | 395 | 469 | 311 | 324 | 323 |
| cactusADM | 774 | 916 | 1929 | 774 | 774 | 955 | 1028 | 1107 | 804 | 929 | 1186 | 744 | 127 | 580 | 73.3 | 127 | 127 | 188 | 205 | 223 | 574 | 141 | 105 | 155 |
| leslie3d | 1156 | 1378 | 4063 | 1156 | 1156 | 1439 | 1435 | 1437 | 1153 | 1840 | 2470 | 1641 | 271 | 526 | 609 | 271 | 271 | 291 | 310 | 330 | 516 | 453 | 466 | 519 |
| namd | 643 | 622 | 563 | 643 | 643 | 704 | 766 | 838 | 618 | 444 | 448 | 442 | 405 | 619 | 553 | 405 | 405 | 442 | 481 | 526 | 617 | 434 | 444 | 442 |
| dealII | 592 | 643 | 1095 | 592 | 592 | 861 | 935 | 1012 | 593 | 628 | 654 | 438 | 327 | 550 | 482 | 327 | 327 | 471 | 514 | 560 | 546 | 452 | 374 | 362 |
| soplex | 925 | 1090 | 2893 | 925 | 925 | 1083 | 1095 | 1100 | 926 | 1587 | 1774 | 1212 | 268 | 589 | 702 | 268 | 268 | 281 | 307 | 324 | 576 | 565 | 584 | 541 |
| povray | 288 | 302 | 246 | 288 | 288 | 311 | 338 | 369 | 302 | 201 | 193 | 195 | 180 | 301 | 244 | 180 | 180 | 194 | 211 | 231 | 301 | 197 | 196 | 194 |
| calculix | 515 | 477 | 550 | 515 | 515 | 602 | 658 | 716 | 467 | 363 | 388 | 336 | 305 | 457 | 424 | 305 | 305 | 384 | 419 | 453 | 456 | 339 | 331 | 322 |
| GemsFDTD | 1471 | 1427 | 5164 | 1471 | 1471 | 1783 | 1771 | 1771 | 1345 | 2210 | 3043 | 2143 | 231 | 622 | 415 | 231 | 231 | 283 | 289 | 296 | 606 | 358 | 479 | 591 |
| tonto | 697 | 645 | 1159 | 697 | 697 | 826 | 901 | 949 | 629 | 615 | 648 | 534 | 365 | 573 | 690 | 365 | 365 | 424 | 463 | 503 | 573 | 440 | 489 | 453 |
| lbm | 1959 | 1786 | 8805 | 1959 | 1959 | 2337 | 2303 | 2303 | 1776 | 2743 | 4025 | 2903 | 245 | 460 | 449 | 245 | 245 | 293 | 289 | 289 | 454 | 347 | 507 | 741 |
| wrf | 757 | 904 | 2861 | 757 | 757 | 959 | 972 | 981 | 818 | 1309 | 1749 | 1132 | 267 | 520 | 642 | 267 | 267 | 346 | 374 | 398 | 511 | 471 | 497 | 475 |
| sphinx3 | 1486 | 1426 | 4147 | 1486 | 1486 | 1635 | 1687 | 1703 | 1105 | 2215 | 2196 | 1712 | 435 | 839 | 750 | 435 | 435 | 444 | 487 | 528 | 827 | 635 | 667 | 640 |
SPEC CFP2006に公開されているCore(TM) i7 (Nehalem) のベンチマーク結果はIntel(R)とASUSによるものが大部分です。その内容は以下のようなものです。
Intel(R)のベンチマーク方法は、2.63GHz、2.93GHz、3.2GHzのプロセッサを用い、Windows Vista (64bit) を搭載し、Intel(R)コンパイラを用いてビルドしたアプリケーションによりテストを行行っています。また、SPECfp rateですハイパースレッドをオンに設定し4コアであるにもかかわらず8スレッド処理を可能にして、8ジョブ並行処理でのテストを行っています。Intel(R)は再登場させたハイパースレッドの価値をアピールするため、8ジョブでも良いスループットが得られていることを示したかったのだと思います。しかし、HPCの利用現場に限るとハイパースレッドのメリットは僅かです。HPCが目指すものは「性能を犠牲にしたスループットの向上」ではなく「スループットを犠牲にした性能の向上」ですから向かっている方向が大きく異なります。
これに対してASUSのベンチマーク方法は、3.2GHzのプロセッサに限られますが、Linuxを搭載し、Intel(R)コンパイラを用いてビルドしたアプリケーションによりテストを行っています。さらにSPECfp rateについては、そのピーク値の測定の一部のアプリケーションでは、ハイパースレッドをオフに設定し4コア4スレッドにして、4ジョブの調査を行っていました。HPC計算機の評価では、4コア4スレッドのテストが大切なのでこの配慮には助かります。
本当は、各クロック速度別のSPECfp rateのベース値での4コア4スレッド環境における4ジョブ投入のテスト結果で評価を進めて行きたいのですが、このような状況のため一部のCPU別性能評価では、ASUSによるSPECfp Peak値を用いており、さらに比較参照用のXeon (R) やAMD Opteron(TM)の数値もSPECfp Peak値を行いました。
なおSPECfpにはBase値とPeak値があります。Base値は各アプリケーション共通のコンパイルオプションで一括コンパイルしたバイナリを使用して測定したデータです。これに対してPeak値は各アプリケーション別にコンパイルオプションをチューニングして個別コンパイルしたバイナリを使用して測定したデータです。BaseとPeakではアプリケーションにもよりますが約5%〜10%前後の性能差が出ることがあります。なお各アプリケーションで利用しているコンパイルオプションは各ベンチマーク結果のページに公開されています。
SPEC CFP2006は計算機の評価に欠かせない素晴らしいベンチマークテストです。以下のような特徴を備えており、詳しく調べると計算機の状況が手に取るようにわかります。
SPEC CFP2006は2種類のテストから構成されています。ひとつがシリアル処理の経過時間を計測することで、単体コアの性能を評価する"SPECfp 2006"です。もうひとつが搭載コア数と同数のジョブを複数同時投入し経過時間を計測することで、スループット性能を評価する"SPECfp 2006 rate"です。この2種類のテストにより計算機の性能特性をより掘り下げて評価できます。
理想は、シリアル処理の経過時間と、全コア同時並行処理の経過時間が同一で、全ての搭載コアが性能を出し切れている状態にあることです。しかし実際には、計算機内部のオーバヘッドの影響により並行処理の経過時間は遅くなり、その遅れの度合いから計算機の特性を割り出す事ができます。これは個々のアプリケーションの特性により影響の出方が全く異なります。
410. bwaves (Fortran) : Computational Fluid Dynamics
416. gamess (Fortran) : Quantum chemical computations
433. milc (C) : Physics/Quantum Chromodynamics
434. zeusmp (Fortran) : Physics/Magnetohydrodynamics
435. gromacs (Fortran and C) : Chemistry/Molecular Dynamics
436. cactusADM (Fortran and C) : Physics/General Relativity
437. leslie3d (Fortran) : Computational Fluid Dynamics
444. namd (C++) : Classical Molecular Dynamics Simulation
447. dealII (C++) : Adaptive Finite Element Method
450. soplex (C++) : Simplex Linear Program (LP) Solver
453. povray (C++) : Computer Visualization
454. calculix (Fortran and C) : Structural Mechanics
459. GemsFDTD (Fortran) : Computational Electromagnetics
465. tonto (Fortran) : Quantum Crystallography
470. lbm (C) : Computational Fluid Dynmaics
481. wrf (Fortran and C) : Weather Forecasting
482. sphinx3 (C) : Speech Recognition
(公開されているSPEC CFP2006より転記)
【参考】
All SPEC CFP2006 Results Published by SPEC
All SPEC CFP2006 Rates Results Published by SPEC
(注意) 表が巨大なため、ページを開く際に少し時間が掛かります。また、個別のデータのリンクに移動後、この表に戻る場合にも時間が掛かります。移動の際は「別ウインドで開く」か「別タブで開く」を利用されると軽快な操作ができます。
○ 本サイト記載の会社名および製品名は、それぞれ各社の商標または登録商標です。
【SPEC CPU2006の公開データを資料として引用】
SPEC, SPECint and SPECfp are resistered trademarks of the Standard Performance Evaluation Corporation. For more information on this SPEC benchmarks see www.spe.org. SPEC and the benchmark name SPEC CPU2006 are registered trademarks of the Standard Performance Evaluation Corporation. Competitive benchmark results stated above reflect results published on www.spec.org as of April 03, 2009. The comparison presented above is based on the best performing 2-cpu servers currently shipping by Intel Corporation, ASUSTeK Computer Inc. and Dell Inc. For the latest SPEC CPU2006 benchmark results, visit http://www.spec.org/cpu2006/