第2世代Coreプロセッサ・ファミリ (Sandy Bridge) を採用した
Xeon E3-1200番台プロセッサを搭載する1-Way ワークステーション
DDR3 133MHzメモリ採用し21GB/sの帯域幅を実現
ECC付きメモリを最大16GBまでサポート
2TBディスクを2基搭載でき最大4TBのディスク容量を実現
大口径低回転ファンを採用し静粛性に配慮
RedHat6.1を標準搭載、用途によってCentOS 5.6オプション搭載
Intel Composer XE 2011開発環境セットアップサービス実施
ネットワーク設定、ジョブスケジューラ設定、ファイサーバ接続設定サービス有
3年間の翌営業日オンサイトサポートを実施
3年間のHPC技術支援を無償で実施
HPC-ProServer DPrT1600
第2世代Intel Core (Sandy Bridge)を採用したXeon E3-1200を搭載する
Sandy Bridge 初のエントリーレベルの1ソケット・ワークステーション
「HPC-ProServer DPrT1600」シリーズは、第2世代Intel Core (Sandy Bridge)アーキテクチャを採用したXeon E3-1200番台のプロセッサを1個搭載する、エントリーレベルの1ソケット型ワークステーションです。
この計算機の基本構成は、Sandy Bridge Xeon 4coreプロセッサを1個搭載し、CPUクロック速度は3.1GHzから3.5GHz、メモリ容量は最大16GB (ECC)、メモリ帯域幅は21GB/sです。この内容が示すように、この計算機は本格的なHPC計算機としては力不足な印象です。
そのため、この計算機の導入を見送り、あと数ヵ月後に発売される筈のSandy Bridge Xeon 8core プロセッサを2個搭載した本格的なHPC計算機を導入する方が良い」との見方もあります。しかし、決してそんなことはありません。この時期に製品化された、初のSandy Bridge搭載HPCワークステーション、HPC-ProServer DPrT1600には大切な役割があります。
プロセッサのアーキテクチャが更新されると、新旧環境の移行作業が必要です。その作業を行うためには事前に新しい環境のプロトタイピングが必要です。その作業の中心はSandy Bridgeを搭載したテスト計算機環境で行います。この計算機によってアプリケーションを再コンパイルと動作テストを経て、問題箇所の把握と解決を行い、Sandy Bridge計算機環境のプロトタイピングを行います。
このプロトタイピング作業では、Sandy Bridgeの機能や性能、開発環境の進捗、アプリケーションとの適性などを詳しく調査し、理想的なSandy Bridge動作環境を試作するだけでなく、最善の移行プランまでも構想します。
プロトタイピングで行う主なポイントは次の通りです。
・ バイナリ提供のアプリケーションでのSandy Bridgeの動作と性能の確認
・ ソースコード提供のアプリケーションでの再コンパイルと動作と性能の確認
・ 独自開発ソースコードでの再コンパイルと動作と性能の確認
・ Sandy Bridreqe対応数値演算ライブラリでの動作と性能の確認
これらのテスト結果を多角的に評価すると、Sandy Bridge環境で高い性能が得られるアプリケーションを把握でき、それに従ってシステムインテグレーションできます。さらに定期的にテストすることで、コンパイラや数値演算ライブラリの改良の様子も把握できます。
新しいアーキテクチャが導入されても、即座に全ての計算機が更新されるわけではありません。既存の計算機は何年間もかけて徐々に更新されます。この期間は新旧アーキテクチャが混在した状態になります。そのため新旧計算をバランス良く使う必要があります。早期に新しい計算機によるプロトタイピングを開始すると、アプリケーションの特性に応じた効率の良いシステムを設計できます。
そのために必要なプロトタイピング作業では、新計算機を既存クラスタに組み込み、既存環境と密接に連携して使える環境が必要です。組み込み方は、新計算機も既存のファイルサーバに接続し、ジョブスケジューラを介して両者を透過的に利用できる環境が必要です。
このようなプロトタイピング環境が動作している、誰もが簡単に新計算機をテストでき、どのアプリケーションがSandy Bridgeに適し、どのアプリケーションがSandy Bridge適していないかを網羅的に確認できます。
また既存クラスタに新計算機を追加した環境は、そのまま新旧アーキテクチャが混在した環境を再現しています。そこど運用にまで踏み込んだテストが行われるので、さらに完成度の高いシステムレベルのプロトタイピングが行われますま。この経験に基づいて新しい環境を構想すれば誰もが納得のできるシステムと納得のできるルールを構想できます。
Sandy Bridgeを搭載したワークステーションを「Sandy Bridge評価機 (プロトタイピング機)」として早期に導入することは大きな意味があります。では、そのSandy Bridge評価機はどのように導入すればよいのでしょうか。市販のワークステーションを購入しLinux OSや開発環境をインストールするだけで十分に機能するのでしょうか。
Sandy Bridge評価機はプロトタイピング環境としての使用に耐え、かつHPCクラスタとしての運用にも耐える完成度が求められます。このようなシステムの構築には、HPC計算機についての深い経験と豊富な知識が必要です。
Sandy Bridge評価機の構築では、Sandy Bridgeに対応した最新のIntel Composer XE 2011コンパイラと数値演算ライブラリ、同じくSandy Bridgeに対応したRed Hat Enterprise Linux WS 6をHPC計算機用にカスタムしたうえでインストールし、動作確認を徹底的に行わなわなければなりません。
全てのユーザが多様なアプリケーションについて、新規開発や移植作業、動作テスト、結果の確認などを一貫してできる共同利用環境の整備は重要です。そのためにはSandy Bridge評価機を既存のHPCクラスタに組み込み、管理サーバやファイルサーバとも接続し、全体をジョブスケジューラで管理する必要があります。この環境整備を一般ユーザが行うことは困難です。
弊社ではこのような工程を経て完成させたシステムを「Sandy Bridge評価用・完全パッケージ」として製品化し、Sandy Bridgeに関心をお持ちのお客様に広く提供しています。このパッケージを導入していただくことで世界標準レベルのSandy Bridge評価環境を既存のHPCクラスタに組み込み、Sandy Bridgeの評価を網羅的に行っていただくことができます。
Sandy Bridgeは次の4つの特徴があります。
1.CPUクロックをより高速化できる (4GHzをめざす)
2.より多くのコアを搭載できる (32nm世代で8コア、22nm世代でメニーコア化)
3.メモリがより高速化する (同じハードウェアで3割高速、更にハードウェアの高速化にも期待)
4.コアそのものが高速化する (128bitから256bit処理へ、全体の最適化には時間がかかる)
最初の3つの特徴はアーキテクチャの延長線上にある技術改良です。劇的な性能の向上はありませんが、既存のバイナリで直ぐ確実に性能が出ます。さらに製造技術が22nmに世代交代すると性能は機械的に5割増しになります。
それ対して4番め特徴はアーキテクチャが更新されたことによる性能の向上です。この性能向上は、新しいアーキテクチャが持つ、同時実行可能な命令数が2倍に増えたことによるものです。しかし、この効果を得るためには開発環境を改良しアプリケーションを最適化する必要があります。それには時間が必要です。
Sandy Bridgeを上手に利用することは、これらの特徴の中で、どれが自分のアプリケーションに効果があり、どれが効果が無いのかということを知ることに尽きます。それがわかれば、アプリケーションの特性に対応したハードウェアを導入することで最適なシステムを実現できます。
現代のプロセッサにとって電源管理こそ最大の計算資源かも知れません。プロセッサのクロック速度は、プロセッサ全体の消費電力によって決定されています。もしプロセッサの内部で効率良く節電できれば、その分だけクロック速度を高くしたり、コア数を増やしたりできます。Sandy Bridgeの特徴の一つは、プロセッサ内部のデバイスの電源管理をきめ細かく行っていることです。そのため、従来と同じプロセス技術を使っていても、プロセッサのクロック速度を高くできる、あるいは搭載するコアの数を増やすことができます。
Sandy Bridgeはメモリ性能も向上しています。Sandy BridgeはCPUコアとメモリコントローラの間の通信にリングバスと呼ばれる新しい技術を採用しています。これを従来のクロスバスイッチと比較します。クロスバスイッチにはCPUコアやメモリコントローラと接続する配線が集中しています。そのためそれらの数が増えると、クロスバスイッチに集中している配線の実装密度が高くなり、発生した熱の集中や実装スペースの問題を起こります。これに対してリングバスは複数のCPUコアやメモリコントローラ、その他のデバイの間を接続パスで数珠つなぎのように接続するため、配線が一箇所に集中することなく分散されます。そのためCPUコアやメモリコントローラの数を増やしても、発生した熱の集中や実装スペースの問題が起こりません。さらに将来、通信帯域幅を広くすることも可能です。
プロセッサのメニーコア化、コアのヘテロジニアス化、メモリシステムの高速化、外部通信の高速化などが進むと、プロセッサ内部の通信速度への要求はさらに高くなります。リングバスの導入はこれらの要求に応えることのできる新しいアーキテクチャです。
HPC計算にとってはリングバスの導入は計算コアの変更よりも性能的にはより大きな貢献があると思われます。しかしリングバスを使うとプロセッサ内部のデータ転送の仕組みも変わります。その性能を引き出すためにも開発環境の改良は欠かせません。Sandy Bridgeを評価するためのプロトタイピング用の計算機ではリングバスに関する性能も評価できると素晴らしいです。
Sandy Bridgeはコアのアーキテクチャが変更されています。その最大の特徴は、従来のNehalemのコアに搭載されていたIntel SSE命令セットがIntel AVX命令セットに変更され、これまでは128bitだった演算幅が256bitに拡張されました。この拡張により演算処理性能が最高で2倍に達しているそうです。
しかしコアのアーキテクチャが変更されたからといって、その性能が実際のアプリケーションに即座に反映されるわけではありません。そのためにはハードウェア、コンパイラ、ソフトウェアの3者が相互に最適化されなければならず、それには長い時間が掛かります。そのためアーキテクチャが変更されたから言って直ぐに高い性能がでるわけではありません。
アプリケーションをSandy Bridgeに最適化するためのツールがIntel Composer XE 2011とIntel MKLなどの開発環境です。新しいアーキテクチャが発売された当初の開発ではシステムの安定動作と正確な処理が優先されます。その目的が達成されると次はより高い性能を目指した開発に拍車がかかります。これまでも多くの場合は、アーキテクチャが変更された当初は、単純なベンマークテストが高速動作しますが複雑なアプリケーションは期待した性能が得られず、それから少しづつ多くのアプリケーションが高速化されるようになっています。実際に性能が出るまでに何年もかかったアプリケーションもあります。
先ほども書きましたが、Sandy Bridgeで性能が出ないことがわかっているアプリケーションは、既存のNehalem Xeon機で動作させても問題ありません。Sandy BridgeではSandy Bridgeで性能の出るアプリケーションを動作させるようにすることが望まれます。
今後の計算機の開発状況を知るためには、過去10年間余りの計算機の開発の流れをみると状況が良く分かります。そこで2000年に登場したPentium4プロセッサから最新のSandy Bridge Xeon E3-12002プロセッサまでの変遷を簡単に追うことにします。
この10年間のプロセッサ開発を俯瞰すると、コアの高速化とメモリの高速化が交互に行われていることに気が付きます。それを確認するためこの期間を3期に分け、さら第1世代と第2世代は前期と後期に2分し、開発指向の違いにスポットライトを当てると、その足跡が浮き彫りになります。
・ 第0世代 NetBurst: "NetBurst M.A." Pentium4 (コア性能とメモリ性能の同時追求)
・ 第1世代Core前期: "Core M.A." Xeon 5400 (コア性能の追及)
・ 第1世代Core後期: "Nehalem M.A." Xeon 5500/5600 (メモリ性能の追及)
・ 第2世代Core (仮)前期: "Sandy Bridge M.A." E3-1200 (コア性能の追及)
・ 第2世代Core (仮)後期: "Future M.A." (メモリ性能の追及)
2000年に "NetBurst M.A." を搭載したPentium4プロセッサが発売されました。このプロセッサの特徴は次の3点です。1点めは2命令を同時実行できるスーパースカラーを採用したこと、2点めはプロセッサを高クロックで動作させられる設計を採用したこと、3点めはメモリ帯域幅が広いラムバスメモリを採用したことです。
コア性能とメモリ性能を同時に向上させるという設計は大成功でした。Pentium4はパソコン用のプロセッサでありながら、当時の錚々たるRISCプロセッサの集団を一挙に追い越し、スパコンに迫る性能を発揮したことで、PC LinuxがHPC計算機の中心に一挙に進出しました。
しかし、Pentium4の急成長も長くは続きませんでした。さらに高速化へとクロック速度の高速化を進めた結果、4GHzを目前にしたところろで発熱の問題が大きくなりすぎ、性能向上の歩みが停止しました。またメモリシステムも発熱問題に苦しんでいました。
熱問題を解消するために設計された新しいアーキテクチャが第1世代Core前期の "Core M.A" .です。このアーキテクチャはCPU性能を向上させることに開発の主眼が置かれ、次の2点の特徴を持っています。1点めの特徴は、スーパースカラー処理を従来の2倍の4命令同時実行に高速化しています。2点めの特徴は、1個のプロセッサに複数のコアを搭載するマルチコア構造を採用したことです。この2階層の並列化によって、クロック速度を上げることなく性能を2倍4倍と次々に向上させることに成功したのです。
しかし性能が次々と向上する反面、プロセッサのマルチコア化はアプリケーションの並列化を不可避にしたことも事実です。
またCPU性能が2倍4倍と向上すると、CPU性能律速型アプリケーションはその恩恵を受け高速化しますが、その陰でメモリ性能律速型アプリケーションは、性能が一向に向上しないという不遇の時代が続きます。
第1世代Core前期では改良されていなかったメモリ性能は、第1世代Core後期の "Nehalem M.A." で大幅に改良されました。それまでのインテルプロセッサでは、プロセッサとメモリシステムの間を一本のバスに集約して接続していました。これがボトルネックとなり、メモリ性能律速型アプリケーションはコア数を増やしても性能が向上しなかったのです。
Nehalem M.A. はこの点が抜本的に改良されました。すなわち、各プロセッサ上に複数のメモリコントローラを直接搭載しました。その効果によりプロセッサ毎のメモリ帯域幅は従来の2〜3倍に向上しました。さらにプロセッサの数を増やした場合でもメモリ帯域幅はリニアに向上するようになりました。この改良により2ソケット機のメモリ帯域幅は従来の12GB/sから64GB/sへと約5倍も高速化しました。ベンチマーク結果を見るとメモリ性能律速型アプリケーションの性能も約5倍に高速化しています。
この前期と後期の2期にわたる改良により、2011年に発売されたXeon X5690 3.46GHzプロセッサの理論性能は倍精度浮動小数点演算性で83GFLOPSを記録し、メモリ帯域幅も2ソケット機で64GB/sに達しました。
しかし、この高速化も限界に近づいてきました。多重並列化によるCPU性能の高速化に、メモリ性能が追従できないことが明らかになってきたのです。さらにメニーコア化するうえでも複数コアと複数メモリコントローラとの間の通信が課題になっています。この課題を切りぬける新たな技術が求められました。そこで新しいアーキテクチャが開発されました。それが 第2世代Coreと呼ばれる "Sandy Bridge" です。
第2世代Coreの "Sandy Bridge" の課題は次の2つです。1つはCPU性能の高速化、もう1つめはメモリ性能の高速化です。しかし両者を一挙に高速化することは困難です。そこで基本的なアーキテクチャは双方を解決できる設計としたうえで、最初にCPU性能の高速化を行い、次にメモリ性能を高速化するという2段構えの高速化になると予想しています。そこでCPU性能を高速化する時期を「第2世代Core (仮)前期」と仮に名付け、メモリ性能を高速化する時期を「第2世代Core (仮)後期」と仮に名付けます。
「第2世代Core前期」の課題はCPU性能の高速化です。そのための2つの新たな技術が採用されています。その1つめは、演算器の倍精度浮動小数点演算の性能をこれまでの2倍に向上させる256bit幅の「Intel AVX」命令セットの採用です。この命令セットによって各コアの理論演算性能が2倍に向上しています。そのため例えば、エントリー級Sandy Bridge Xeon E3-1280 3.5GHz 4coreプロセッサの理論性能は112GFLOPSに達します。これはこれまで最速であったXeon X5690 3.46GHz 6coreプロセッサの83GFLOPSを軽く追い越す性能です。さらに近い将来リリースされるという本格的Sandy Bridge Xeon E5-XXXX 8coreプロセッサの理論性能は200GFLOPSを越えると予想されています。
CPU性能が現在の4倍にも高速化することに対してメモリ性能の高速化は、メモリクロック速度が1333MHzから1600MHzへと少し高速化されるだけだとのアナウンスしか届いていません。これではメモリ性能律速型のアプリケーションにとっては焼け石に水のです。
この課題に対してSandy Bridgeはメモリ性能を高速化するための新しい内部通信技術を採用しています。これまでプロセッサ内部のデバイス間の通信はクロスバスイッチが使われていました。スイッチによるデバイの接続では全ての配線がスイッチに集中します。すると搭載するデバイの数が増えるに従ってスイッチ周辺の配線が増え、スペース的にも熱的にも拡張の余地が無くなります。
これに対してSandy Bridgeではプロセッサ内部のデバイス間の通信にリングバスを使うように改良されています。リングバスなら各デバイスに接続ポートを設けリング状のバスで接続するだけですから、デバイスの数を増やすことが容易、バス幅を拡張することも容易、配線やポートが分散されるので熱が分散されるなど、メニーコア化やメモリポートの増設へ対応が柔軟にできます。
メモリコントローラの数の増設や帯域幅の高速化についてのアナウンスはまだ聞こえてきません。しかし、実際の計算ではメモリ帯域幅の不足は大きな問題となっています。プロセッサの技術開発にも利用者の要望が反映されるようになりました。そのため、直近のプロセッサでは大幅なメモリ性能の高速化は期待出ませんが、その次のプロセッサについては、これまでのプロセッサでもそうであったように、メモリ性能の大幅な向上に期待したいものです。
以上のようにSandy Bridgeは、CPU性能律速型のアプリケーションに対してはIntel AVXの採用とメニーコア化によって対応し、メモリ性能律速型のアプリケーションに対してはリングバスの採用で可能な限りメモリ帯域幅を向上させてゆくという対策が準備されています。
作成中