HPC-ProServer DPeR210 II
第2世代Coreプロセッサ (Sandy Bridge)
Xeon E3-1200番台プロセッサを搭載した1-Socket 1U サーバ
DDR3 133MHzメモリ採用し21GB/sの帯域幅を実現
ECC付きメモリを最大32GBまでサポート
2TBディスクを2基搭載でき最大4TBのディスク容量を実現
大口径低回転ファンを採用し静粛性に配慮
RedHat6.1を標準搭載、用途によってCentOS 5.6オプション搭載
Intel Composer XE 2011開発環境セットアップサービス実施
ネットワーク設定、ジョブスケジューラ設定、ファイサーバ接続設定サービス有
3年間の翌営業日オンサイトサポートを実施
3年間のHPC技術支援を無償で実施
HPC-ProServer DPeR210 II
第2世代Intel Core (Sandy Bridge)を採用したXeon E3-1200を搭載する
Sandy Bridge 初のエントリーレベルの1U・1ソケット・サーバ
「HPC-ProServer DPeR210 II」シリーズは、第2世代Intel Core (Sandy Bridge)アーキテクチャを採用したXeon E3-1200番台のプロセッサを1個搭載する、エントリーレベルの1ソケット型サーバです。
この計算機の基本構成は、Sandy Bridge Xeon 4coreプロセッサを1個搭載し、CPUクロック速度は3.1GHzから3.5GHz、メモリ容量は最大16GB (ECC)、メモリ帯域幅は21GB/sです。この内容が示すように、この計算機は本格的なHPC計算機としては力不足な印象です。
そのため、この計算機の導入を見送り、あと数ヵ月後に発売される筈のSandy Bridge Xeon 8core プロセッサを2個搭載した本格的なHPC計算機を導入する方が良い」との見方もあります。しかし、決してそんなことはありません。この時期に製品化された、初のSandy Bridge搭載HPC Server、HPC-ProServer DPeR210 IIには大切な役割があります。
プロセッサのアーキテクチャが更新されると、新旧環境の移行作業が必要です。その作業を行うためには事前に新しい環境のプロトタイピングが必要です。その作業の中心はSandy Bridgeを搭載したテスト計算機環境で行います。この計算機によってアプリケーションを再コンパイルと動作テストを経て、問題箇所の把握と解決を行い、Sandy Bridge計算機環境のプロトタイピングを行います。
このプロトタイピング作業では、Sandy Bridgeの機能や性能、開発環境の進捗、アプリケーションとの適性などを詳しく調査し、理想的なSandy Bridge動作環境を試作するだけでなく、最善の移行プランまでも構想します。
プロトタイピングで行う主な作業は次の通りです。
・ バイナリ提供のアプリケーションでのSandy Bridgeの動作と性能の確認
・ ソースコード提供のアプリケーションでの再コンパイルと動作と性能の確認
・ 独自開発ソースコードでの再コンパイルと動作と性能の確認
・ Sandy Bridreqe対応数値演算ライブラリでの動作と性能の確認
これらのテスト結果を多角的に検討することで、Sandy Bridge環境で高い性能が得られるアプリケーションの実態を把握でき、それを基本にしてシステムを設計できます。
さらにテストを定期的に実施することで、コンパイラや数値演算ライブラリが改良されてゆく様子を直接的に把握できます。
新しいアーキテクチャが導入されても、一度に全ての計算機が更新されるわけではありません。システムは何年もの期間をかけて徐々に更新されます。その間は新旧アーキテクチャが混在した状態です。そのため新旧計算をバランス良く使う必要があります。そこで、新しいアーキテクチャによる計算環境のプロトタイピングを行うと、アプリケーションの特性に応じた効率の良いシステムを設計できます。
このようなプロトタイピング作業では、新計算機を既存クラスタに組み込み、既存環境と密接に連携して使える環境が必要です。構築方法は、新計算機も既存のファイルサーバに接続し、ジョブスケジューラを介して両者を透過的に利用できる環境が必要です。
このようなプロトタイピング環境があると、誰もが簡単に新計算機をテストでき、どのアプリケーションがSandy Bridgeに適し、どのアプリケーションがSandy Bridge適していないかを漏れなく確認できます。
またこのプロトタイピング環境は、新旧アーキテクチャが混在した環境の再現でもあります。この運用で得られた経験を基にクラスタを設計することで、完成度の高いシステムを構築でき、誰もが納得のできるシステムとルールを実現できます。
Sandy Bridgeを搭載したワークステーションを「Sandy Bridge評価機 (プロトタイピング機)」として早期に導入することは大きな意味があります。では、そのSandy Bridge評価機はどのように導入すればよいのでしょうか。市販のワークステーションを購入しLinux OSや開発環境をインストールするだけで十分に機能するのでしょうか。
Sandy Bridge評価機はプロトタイピング環境としての使用に耐え、かつHPCクラスタとしての運用にも耐える完成度が求められます。このようなシステムの構築には、HPC計算機についての深い経験と豊富な知識が必要です。
Sandy Bridge評価機の構築では、Sandy Bridgeに対応した最新のIntel Composer XE 2011コンパイラと数値演算ライブラリ、同じくSandy Bridgeに対応したRed Hat Enterprise Linux WS 6をHPC計算機用にカスタムしたうえでインストールし、動作確認を徹底的に行わなわなければなりません。
全てのユーザが多様なアプリケーションについて、新規開発や移植作業、動作テスト、結果の確認などを一貫してできる共同利用環境の整備は重要です。そのためにはSandy Bridge評価機を既存のHPCクラスタに組み込み、管理サーバやファイルサーバとも接続し、全体をジョブスケジューラで管理する必要があります。この環境整備を一般ユーザが行うことは困難です。
弊社ではこのような工程を経て完成させたシステムを「Sandy Bridge評価用・完全パッケージ」として製品化し、Sandy Bridgeに関心をお持ちのお客様に広く提供しています。このパッケージを導入していただくことで世界標準レベルのSandy Bridge評価環境を既存のHPCクラスタに組み込み、Sandy Bridgeの評価を網羅的に行っていただくことができます。
Sandy Bridgeの特徴は次の4つです。
1.CPUクロックを高くできる (4GHzに接近)
2.コアの数を多くできる (32nm世代で8コア、22nm世代は??コア)
3.メモリ性能が高い (同じクロックで3割増し、今後も期待できる)
4.コアそのものの性能が高速化 (しかし性能が出るまでに時間が必要)
最初の3つの特徴はアーキテクチャの延長線上にある技術改良です。劇的な性能の向上はありませんが、既存のバイナリで直ぐ確実に性能が出ます。さらに製造技術が22nmに世代交代すると性能は機械的に5割増しになります。
それ対して4番め特徴はアーキテクチャが更新されたことによる性能の向上です。この性能向上は、新しいアーキテクチャが持つ、同時実行可能な命令数が2倍に増えたことによるものです。しかし、この効果を得るためには開発環境を改良しアプリケーションを最適化する必要があります。それには時間が必要です。
Sandy Bridgeを上手に利用することは、これらの特徴の中で、どれが自分のアプリケーションに効果があり、どれが効果が無いのかということを知ることに尽きます。それがわかれば、アプリケーションの特性に対応したハードウェアを導入することで最適なシステムを実現できます。
現代のプロセッサにとって電源管理こそ最大の計算資源かも知れません。プロセッサのクロック速度は、プロセッサ全体の消費電力によって決定されています。もしプロセッサの内部で効率良く節電できれば、その分だけクロック速度を高くしたり、コア数を増やしたりできます。Sandy Bridgeの特徴の一つは、プロセッサ内部のデバイスの電源管理をきめ細かく行っていることです。そのため、従来と同じプロセス技術を使っていても、プロセッサのクロック速度を高くできる、あるいは搭載するコアの数を増やすことができます。
Sandy Bridgeはメモリ性能も向上しています。Sandy BridgeはCPUコアとメモリコントローラの間の通信にリングバスと呼ばれる新しい技術を採用しています。これを従来のクロスバスイッチと比較します。クロスバスイッチにはCPUコアやメモリコントローラと接続する配線が集中しています。そのためそれらの数が増えると、クロスバスイッチに集中している配線の実装密度が高くなり、発生した熱の集中や実装スペースの問題を起こります。これに対してリングバスは複数のCPUコアやメモリコントローラ、その他のデバイの間を接続パスで数珠つなぎのように接続するため、配線が一箇所に集中することなく分散されます。そのためCPUコアやメモリコントローラの数を増やしても、発生した熱の集中や実装スペースの問題が起こりません。さらに将来、通信帯域幅を広くすることも可能です。
プロセッサのメニーコア化、コアのヘテロジニアス化、メモリシステムの高速化、外部通信の高速化などが進むと、プロセッサ内部の通信速度への要求はさらに高くなります。リングバスの導入はこれらの要求に応えることのできる新しいアーキテクチャです。
HPC計算にとってはリングバスの導入は計算コアの変更よりも性能的にはより大きな貢献があると思われます。しかしリングバスを使うとプロセッサ内部のデータ転送の仕組みも変わります。その性能を引き出すためにも開発環境の改良は欠かせません。Sandy Bridgeを評価するためのプロトタイピング用の計算機ではリングバスに関する性能も評価できると素晴らしいです。
Sandy Bridgeはコアのアーキテクチャが変更されています。その最大の特徴は、従来のNehalemのコアに搭載されていたIntel SSE命令セットがIntel AVX命令セットに変更され、これまでは128bitだった演算幅が256bitに拡張されました。この拡張により演算処理性能が最高で2倍に達しているそうです。
しかしコアのアーキテクチャが変更されたからといって、その性能が実際のアプリケーションに即座に反映されるわけではありません。そのためにはハードウェア、コンパイラ、ソフトウェアの3者が相互に最適化されなければならず、それには長い時間が掛かります。そのためアーキテクチャが変更されたから言って直ぐに高い性能がでるわけではありません。
アプリケーションをSandy Bridgeに最適化するためのツールがIntel Composer XE 2011とIntel MKLなどの開発環境です。新しいアーキテクチャが発売された当初の開発ではシステムの安定動作と正確な処理が優先されます。その目的が達成されると次はより高い性能を目指した開発に拍車がかかります。これまでも多くの場合は、アーキテクチャが変更された当初は、単純なベンマークテストが高速動作しますが複雑なアプリケーションは期待した性能が得られず、それから少しづつ多くのアプリケーションが高速化されるようになっています。実際に性能が出るまでに何年もかかったアプリケーションもあります。
先ほども書きましたが、Sandy Bridgeで性能が出ないことがわかっているアプリケーションは、既存のNehalem Xeon機で動作させても問題ありません。Sandy BridgeではSandy Bridgeで性能の出るアプリケーションを動作させるようにすることが望まれます。