お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機導入事例

ファイルサーバ導入事例 (抜粋)

Gaussian導入事例 (抜粋)

AMBER用 Xeon 8node 16CPU 32core 並列計算機システム + FS【導入事例】

AMBERを動作させるための並列計算機

お客様は蛋白質の理論計算を行っている大学の研究者の方です。今回はAMBERを動作させるための並列計算機を導入されるということで、弊社にも計算機をご提案する機会を与えていただきました。

計算機の構想

AMBERは蛋白質の計算用としては広く利用されているアプリケーションです。並列動作はMPIを利用しています。しかしネットワーク負荷が高く、ノード数を増やすに従って並列効率が低下する傾向があるため、ハードウェアの特性やミドルウェア・開発環境の選択などの速度向上の工夫をする必要があります。

コアの計算性能、ノード内の並列性能、ネットワーク並列性能の3つが全て課題

AMBER用の並列計算機環境を考える場合に、この時点 (2006年の夏から秋) で注意しなければならないこととして、過去のNetBurstアーキテクチャ世代の並列計算機から、新しく登場してきたCoreマイクロアーキテクチャ + FB-DIMM採用のXeonマザーボードによる新世代の並列計算機へと、並列計算機の構造が大きく変わろうとしている時期にあるということです。この理由として、NetBurstアーキテクチャ世代 (Pentium4、Xeon、DDR2メモリ) の計算機はマザーボードに2個以上のコアを搭載してもメモリ帯域が不足し、計算速度が向上しませんでした。すなわち、クロック速度の速いPentium4機こそが最速の計算機であり、ネットワーク並列機を構成する場合でもPentium4機をネットワーク接続することが最も合理的であったからです。そして速度向上のために並列度を上げるとネットワークの速度がボトルネックとなるため、速度が必要な場合にはMyrinetなどの高速なネットワークを採用していました。ところが、2006年の夏頃にCoreマイクロアーキテクチャを採用したDual-Core Xeon (Woodcrest) が登場し、高速なFB-DIMMメモリ対応のXeon用マザーボードと組み合わせることで、4コアでのノード内並列性能が一挙に向上したことが確認されました。そしてこれを境として、HPC計算用の主力プラットホームはPentium4 1コア (Core Duo 2コアを含む) から、Xeon 2CPU 4コア (後に8コア) へと世代交代が起こりました。これにより技術的な課題も増加しました。これまでのように、コアの計算性能と、ネットワーク並列性能の向上の2つが課題で、ノード内並列性能は考える必要が無かった状況から、コアの計算性能、ノード内の並列性能、ネットワーク並列性能の3つが全て課題となるようになりました。

選択が難しい時期

お客様がAMBER用の並列計算機を検討されていた時期はちょうどこの移行期 (2006年の夏から秋) にありました。お客様も当然Xeon (Woodcrest) に期待はされていましたが、出たばかりのアーキテクチャでの未知数であることへの不安、コストパフォーマンスの問題、サポートするベンダーの技術力などを心配され、その選択に迷われていました。

・ Core2 DuoはこれまでのPentium系の経験が各ベンダーにあるため、選択肢としては無難
・ Core2 Duoは広く流通しており価格もこなれている上、納期も堅そう
・ 出たばかりのXeon (Woodcrest) は価格が高そう
・ Xeon (Woodcrest) を提案するベンダーまだなかった
・ Xeon (Woodcrest) を納期どおり持ってきてくれるのか不安
・ Xeon (Woodcrest) の並列計算チューニングのノウハウを蓄積しているベンダーは少なそう
・ Xeon (Woodcrest) の開発環境やミドルウェアの情報がまだ少なく不透明
・ Xeon (Woodcrest) のインテグレーションくらいは自分達でやれるのだが、忙しくて手が回らない

ちょうどこの頃、弊社ではXeon (Woodcrest) のテストを行っており、その高い性能の片鱗を確認できるようになっていました。さらに開発環境を含むインテグレーションの目処も付き始めていました。そこで、さらに具体的な提案をさせてくださいとお願いしました。

・ HPC機としては終焉が迫る1ソケット機 (Core2 Duo) の新たな導入はロスを生む可能性がある
・ Core2 Duoに匹敵する充分な数量のコア Xeon (Woodcrst) を納入する
・ インテルのテストサイトではXeon (Woodcrest) の性能は確かに出ている
・ インテルによると4コア (8コア) に対応するメモリ帯域は確保されている
・ インテルはコンパイラやミドルウェアの改良を進めており性能を引き出しつつある
・ マルチコアの計算機でのノード内並列性能の達成と、ネットワーク並列性能の達成の両立が必須
・ 数値演算ライブラリによるコア性能向上とノード内並列性能向上のチューニング技術を保有している
・ コンパイラによるコア性能向上とノード内並列性能向上のチューニング技術を保有している
・ MPIライブラリによるノード内/間並列性能向上のチューニング技術を保有している
・ ネットワークスイッチによるノード間並列性能向上のチューニング技術を保有している
・ 弊社技術陣もAMBERに関しては並列性能を出す作業を行う
・ オンサイトのセットアップで運用開始までサポートする
・ ファイルサーバを含めて高品質のDELLで構成する
・ 3年間の当日/翌日オンサイト「W保守サービス」をつける
・ 短納期で納入し迅速に立ち上げる

お客様にこのようなご提案を申し上げたところ、「AMBER計算の高速化がXeon (Woodcrest) で達成でき、 Core2 Duoに匹敵する充分な数量のコア数が提供され、質の高い技術サポートを責任を持って実行し、3年間の当日/翌日オンサイト「W保守サービス」をしてくれるのなら、非常に魅力的な提案なので検討してみてもよい。HPCテクノロジーズの技術者の質には期待している。」との返事をいただきました。そこで、本提案に向けてより詳細なお話を伺いました。

お客様の要望

・ AMBERの並列計算高速化のために充分な数量のコア数をXeonで持ってきてほしい
・ スイッチはGbEで構成し、AMBERで高い並列性能を出してほしい
・ アーキテクチャや開発環境が刷新されているので、性能が確認できるところまではアフターケアしてほしい
・ 堅牢なファイルサーバを提案してほしい
・ 3年間の当日/翌日オンサイト「W保守サービス」は必須
・ 納期を守り、迅速に本稼動させてほしい
・ 全ての作業をキチンとやってほしい
・ これまでの提案から、こちらの要望は把握してもらっていると思っているので、期待に背かないようにしてほしい

弊社からのご提案

計算機
DPr490: Dual-Core Xeon 2.66GHz 2CPU 4コア
メモリ: 4GB (FB-DIMM 667MHz)
Sys HDD: 250GB x2 バックアップ
Cluster構成: 8node 16CPU 32コア

計算機は8台のDPe490を納めることとし、Dual-Core Xeonで32コアを動作させ、これらをGbE接続しMPICHをインストールし、MPIによるAMBERでの並列計算を行う構成。

ファイルサーバ/管理サーバ
DPr390: Dual-Core Xeon 1.86GHz 1CPU 2コア
HDD: Sys 500GB、Backup 500GB
RAID: RAID1 500GB (500GB x2)

ファイルサーバと管理サーバはDPr390で兼用させる。ホームディレクトリは500GB (ハードウェアRAID1とし、500GBのSATAドライブ2個で構成する)。システムディスクは500GBのSATAドライブとし充分な容量を確保し、別の500GBのディスクにバックアップする冗長化構成をとる。

その他
GbE SW: 16port
開発環境: Intel Compiler
OS: CentOS
並列環境: MPICH (Intel-MPI)
ジョブスケジーラ: LSF

サポートなど
AMBER用並列計算機システムのシステム構築一式
オンサイトでの設置サービス
3年間の当日/翌日オンサイト「W保守サービス」

お客様に、このようなご提案をしたところ、弊社提案を選択していただけました。

納入・設置・オンサイト作業

システムの構築と設定とテストは順調に進み、納入・設置・オンサイト作業も納期を守って完了しました。右写真のようにシステム全体は黒と銀色のツートンカラーの9台のワークステーションで構成されており、棚に一列に並べて設置すると迫力があります。しかし、この外観以上に内部の演算性能は素晴らしいものです。お客様のご協力を得ることで、AMBERに対するマルチコア計算機環境での並列計算に関するシステムチューニングを行ったところ高い並列性能を実現できるようになりました。弊社の技術に期待し、導入を決めていただいたお客様を落胆させることなく、なんとか及第点をお願いできる状態には仕上げられたと思っています。

マルチコア計算機環境でのAMBERの並列計算チューニング

ハードウェアのみならず、開発環境やミドルウェア、スイッチ類などの多くの要素が一新されているので、AMBERの並列計算を高速に行わせるため、各要素の特性を確認しながら最適な組み合わせやパラメーター設定などを調整するチューニングを行なわさせていただきました。このサービスにより、AMBERの並列計算性能は満足できる水準に到達しました。さらに弊社としても、AMBERのシステムチューニングに関して新たなノウハウの蓄積を行うことができました。特にIntel-MPIを使用することでのノード内並列性能向上を達成できたことは大きな収獲でした。これらの知見は、弊社のベンチマークページにレポートしています。

弊社ベンチマークページ