お客様は、「宇宙天気」の研究を行っておられる研究者の方です。具体的には、宇宙空間のプラズマを粒子的にシミュレーションされており、そのためのソフトウェアをFortranで開発され、さらに計算速度を向上させるためMPIにより並列化されているとのことでした。この計算を、これまではセンターのスパコンで流されていたそうです。それを手元でも流すための計算機の導入を検討されていました。
■ 納入後お客様から「お礼のメール」を頂戴しました。
導入される計算機に関してお客様と打ち合わせをするなかで、以下のようなことを実現する必要があることがわかりました。
1. コアは高速なものが必要
2. コアの数量も必要
3. コアあたり4GBのメモリが必要
4. MPI並列計算を高速に実行させる
5. 高速なシステムインターコネクトが必要
6. シリアル計算と並列計算を混在して流すので自動ジョブスケジュラー (LSF) が必要
7. 計算機から独立した管理サーバとファイルサーバが必要
8. ファイルサーバは高速かつ高信頼性能のものが必要
9. 管理サーバには開発環境やMPI環境などを利用できる状態にセットアップすること
10. 堅牢なハードウェアを使用し故障させない
11. 可能な限り静かなシステムが必要
12. 一ヶ月以下の短納期で運用開始まで完了させる
13. 設置作業までオンサイトで行ってほしい
14. 保守サービスは3年間のオンサイト保守が必要
15. 大容量メモリへのアップグレードを視野に入れた構成であること
これらの要件を満たすシステムを設計しご提案いたしました。また、システム設計・積算から書類作成、そして納入までの時間が限られているので、設計作業や提出書類の作成などの諸作業は素早く完璧に行う必要があることもわかりました。
このシステムの検討を開始した頃は、まだDua-Core Xeonしか市販されていませんでしたので、これを検討していました。しかしその後、Quad-Core Xeonが発表されると、弊社では直ぐに徹底的なテストを集中的に行いました。その結果、一般に懸念されていた「メモリ帯域不足が原因でQuad-Core Xeonは性能が出ない」という評判は杞憂であり、並列性能が劣化する本当の原因は、MPIの実装にあることを早い段階で突き止めることができました。また、その対策としてはIntel-MPIを採用することで高い並列性能が得られることを、Quad-Core Xeonの発売直後から確認に成功していました。そこで、お客様にはこのテスト結果をお伝えし、Quad-Core Xeonをベースにした構成をお勧めしました。お客様もこのテスト結果を評価され、弊社の提案を採用していただくことができました。
1. Intel-MPIによりノード内の通信効率が劇的に改善され、Quad-Core Xeonは高い並列性能を発揮する
2. Quad-Core Xeon 8コアでMPI並列を行うと、8並列までは高速なノード内通信で計算ができる
3. 4コア機より8コア機をクラスタリングした並列機の方がネットワーク負荷が少ない
4. Quad-Core XeonはDual-Core Xeonよりコアあたりのコストパフォーマンスが圧倒的に高い
■ご参考 「インテル MPI ライブラリー 3.0の製品情報」の弊社外のページへのリンク (別画面で開く)
今回のシステムでは数十コアを利用した大きな並列計算が実行されます。この並列計算を高速に動作させるためにはネットワークの性能の改善も考慮しておく必要があります。Quad-Core Xeon + Intel-MPIの組み合わせでノード内の計算速度は速くなります。するとネットワークの速度もそれに対応した高速なものを採用する必要があります。通信速度が遅いとこれがボトルネックとなり並列性能が向上しない場合が多いのです。そこで、高速なInfiniBandの採用をご提案しました。
■ご参考 「InfiniBand + Intel-MPI関連の弊社ベンチマークテスト一覧」のページへリンク
管理ノードとファイルサーバは兼用タイプとしましたが、並列計算機とは別のマシンにする構成としました。このように運用を分離した構成しておくことで、計算ノード追加にも、ストレージ容量の追加にも、柔軟に対応できるシステムとなります。
その他のクラスタ構築に関する構成は弊社が得意とする標準構成であり、多くの実績があることをお伝えし、了解していただきました。
お客様はデルのワークステーションのご利用経験をお持ちで、そのご利用経験からデル製品は堅牢であると高く評価されていました。そのため、弊社がデルの計算機をベースとし、これをHPCインテグレーションしていることをお伝えすると、それは良いことだと評価していただくことができました。
(ノード毎の構成)
CPU : Quad-Core Xeon 2.66GHz 2CPU 8コア
メモリ : FB-DIMM 667MHz 16GB
HDD : 250GB x 2本 (システムディスク + システムバックアップ)
CPU : Duad-Core Xeon 1CPU 2コア
メモリ : FB-DIMM 667MHz 2GB
ストレージ : 実効容量1TB (SATA 500GB x 4本 RAID10)
並列計算機用 : 10Gbps SDR InfiniBandスイッチ 24ポート
Ethernet : GbEスイッチ 16ポート
OS : CentOS
開発環境 : Intel Compiler
MPI実装 : Intel-MPI
ジョブスケジューラー : LSF
オンサイトセットアップサービス
3年間の翌営業日のオンサイト保守
3年間のHPCサポート
納入直後からの運用開始を可能とするため、部材の手配を迅速に行い、社内での作りこみと動作テストを可能な限り完全に行いました。右の写真は弊社の社内でテストをしているInfiniBand接続された5台のDPr690です。ファイルサーバと管理ノードも同時に接続して動作テストすることで、作業の確認を実機で直接行い、作業のやり残しを防ぎました。システムの安定稼動と動作確認を完了してから、丁寧に梱包して出荷しました。
お客様のサイトへの製品の搬入に合わせて、お客様のサイトをご訪問しオンサイト作業を行いました。既に社内でシステム全体を組み立て、安定稼動や動作確認は終わっているシステムなので、オンサイト作業は迅速かつ確実です。
1. 電源ケーブルやネットワークケーブルを接続を引き回して準備
2. 予めお届けしていた機材を開梱し、ご指定の場所に設置
3. ケーブルやスイッチ類を接続し、見栄え良く整理
4. お客様のネットワークから利用できるように設定
5. 動作確認
6. 後片付け
7. お客様への各種説明
⇒ 詳しくは作業を説明している「オンサイト作業のページ」参照
オンサイト設置作業は納入日に完了し、お客様にご利用を開始していただくことができました。写真はお客様の研究室に設置されたシステムです。
お客様から、導入日の翌営業日に、早くも「お礼のメール」を頂戴しました。このメールでは性能評価の結果も伝えていただきました。お客様からのメールを、掲載のご許可をいただいたうえで、以下に転載いたします。
『先週はセットアップをして頂きありがとうございました。
早速,計算センターにあるSR11000で動かしていた並列プログラムを実行させました。SR11000で64 PE使うと約40分かかっていた計算が今回納入して頂いた計算機(40 core)を使うと約20分で終了しました。予想以上に計算時間が早かったので異常終了したのかと疑ったほどです。これからノード間通信の多い計算も実行させてみますが,予想以上の性能で大変満足しております。
取り急ぎ,ご報告まで。』
計算機が納入直後から利用開始が可能となり、お客様が期待されていた性能が確認でき、お客様に喜んでいただくことができたことは、弊社としてもとても光栄なことだと感じております。