はじめに
お客様から、「大規模構造物の開発で利用する流体計算や構造計算を動作させるためのプラットホームとして、性能が高く、信頼性に富み、使い易く、サポートも優れたHPCクラスタを必要としています。もし良い提案ができるようならお願いします。」と声をかけていただきました。もちろん、是非とも提案させていただきたいとお返事をさしあげ、下記のようなシステムをご提案いたしました。(ご提案時期は2007年ですが、構成の内容は現在でも非常に優れたものです。)
ご提案したシステム
お客様は開発実務で計算機を使用されていますから、信頼性の高さは最優先のポイントです。
- 障害が少ないこと
- 万一障害を起こしても被害が最小であること
- 迅速な障害解決のため、翌日オンサイト修理を3〜5年間実施すること
これらのことに配慮し、計算機本体には安定した動作実績を持つデル製の1Uサーバを採用しました。この計算機は弊社のPCクラスタの主力機として沢山出荷され安定した動作実績を確認しています。さらに信頼性を高めるためシステムディスクはRAID1を採用しています。またシステム完成後の試運転では高い負荷を連続して与え、初期不良や不具合箇所のスクリーニングと改修を完了させ、完成度の高いPCクラスタに仕上げてから出荷します。納入後の障害については、3年間の翌日オンサイト保守を付帯させています。これらに加えて、全ノードをUPSに接続、RAID10ストレージの搭載、LSFの採用、発熱に配慮したラック実装など、業務用に相応しい仕様になっています。そのうえで、HPC計算機に相応しい性能や使いやすさを実現できる構成を考えました。
ホストノード -- 1台
CPU: Quad-Core Xeon 2.66GHz 2CPU 8core
メモリ: 16GB FB-DIMM 667MHz
ハードディスク: 80GB x2 (H/W RAID1)
筐体: EIAラックマウント型 1U 低騒音タイプ
OS: 64bit Linux (Cent OS 4)
外付けディスク接続用RAIDコントローラ: PERC5/E
外付けディスクエンクロージャ
ストレージ: 1.5TB (RAID10+スペアディスク / SATA750GBx5)
※サーバとディスクアレイの接続はSAS (Serial Attached SCSI)
- 演算ノード -- 8台 16CPU 64core
CPU: Quad-Core Xeon 2.66GHz 2CPU 8core
メモリ: 8GB FB-DIMM 667MHz
ハードディスク: 80GB x2
筐体: EIAラックマウント型 1U 低騒音タイプ
OS: 64bit Linux (Cent OS 4)
- その他
ネットワークスイッチ: 1000base-T 24Port Switch (3年間保証)
無停電電源装置: 3000VA 2Uラックマウント型 x5
ラック: EIA 42Uラック x1
開発環境: コンパイラ: インテルC, C++, Fortran、数値演算ライブラリ: インテル MKL、MPIライブラリ: インテル MPI
ジョブ管理環境: LSF-HPC 3年間ライセンス&サポート
セットアップ: システム工場内組み立て(試運転含む)、現地オンサイトセットアップ(輸送費込み)
サポート: 3年間当日/翌日オンサイト無償部品交換、 3年間HPC-Proサポート
システム管理: Webベースのディスクとサーバの統合管理ツール搭載
システムの特徴
- 計算機本体には安定した動作実績を持つデル製の1Uサーバを採用
- システムディスクはRAID1を採用しホットスワップが可能
- ファイルサーバはRAID10構成としスペアディスクを搭載しホットスワップが可能
- 管理サーバ/ファイルサーバは冗長化電源採用
- ディスクアレイとホストサーバは高速なSAS 12Gbps (4Gbpsx4)規格で接続
- 性能が確認できているGbEスイッチを使用し、3年間の保証を付帯
- 優れた開発環境を搭載
- プロセッサに最適化されたMPIライブラリを搭載
DAPL (Direct Access Programming Library)インターフェースを持ち、高速な通信デバイス上での並列計算に適応
- 実績の高いLSFの採用
- ラックには前面スタビライザーを実装し耐震性に優れる
- スライドレールとケーブルアームによりケーブルを接続したまま手前に引き出し作業ができる
- 発熱に配慮したラック実装
- システム全体をUPSに接続
- 保守性が高い前面部のLCDモニタ (ハードウェアのステータスを把握が容易)
- OS復旧が簡単なリカバリDVDメディア附属
- ブラウザベースの日本語表示に対応したサーバー管理ツールの搭載とセットアップ
サーバー管理ツールは他のクライアントPC
(Windows、Linux)から表示ができる
サーバー管理ツールはサーバー本体だけでなく、ストレージのRAID管理も行うことができる
- システム完成後の試運転では高い負荷を連続して与え、初期不良や不具合箇所のスクリーニングと改修を完了
- 完成度の高いPCクラスタに仕上げてから出荷
- サーバとストレージなどは3年間当日/翌日オンサイト無償部品交換サービスを実施
- 3年間HPC-Proサポートの実施 (障害時の電話・メールサポート。運用上のご相談受け付け)
システム構築
全てのコンポーネントが社内に入荷すると、迅速にラッキングとケーブリングを完了させ、Linux OSのインストール、ストレージシステムの構築、ネットワーク環境の構築、開発環境の搭載、UPSの接続と動作確認を済ませ、PCクラスタとしての機能を確認します。単純な初期不良はこの段階で発見され交換処理されます。また、OS環境の設定やデバイスドライバの確認など標準的なシステム設定はこの段階で行います。基本的なシステム構築が完了し動作確認が終わると次の工程に移ります。
負荷テストと早期部品交換
| |
 |
 |
|
| |
「DIM(M)#N」と障害箇所を表示 (細部を拡大) |
ラック中段が赤く点灯 |
|
システムの動作確認が終わると試運転の開始です。Linpack HPLなどをループ実行して連続高負荷を与えると、それまでのテストでは発見できなかった潜在的な不良が顕在化します。写真はテストによりメモリ初期不良が検出されたことを、システム前面のLCDモニタにオレンジ色で警告表示している様子です。ラックの金網越しでも十分視認できる明るさです。また、LCD表示にはDIMMモジュールのスロット番号まで表示されますから早期部品交換も迅速に行うことができます。
メモリを含むシステムの高負荷テストが完了すると次にストレージの動作試験と負荷試験を実施します。ストレージや電源などを含むシステム全体が負荷により障害を発生させると。これらも障害が発生すれば早期部品交換を行っています。、
仕上げとオンサイト設置
試運転と初期不良対策が完了したシステムは、ネットワークやファイルシステム、ジョブスケジューラのカスタム設定をお客様のご指定に従って行いシステムとして利用可能状態にまで完成させます。完成したシステムはお客様のご都合に併せて、専用の搬送台車に搭載し納入にお伺いします。システムの搬入は弊社技術スタッフがオンサイト作業で行い、システムの据付、ネットワークへの接続、開発環境を用いてのコンパイルテストやジョブの試験投入までを行い動作確認を行ってから引き渡します。その際に、お客様のご質問にもその場でお答えし、必要に応じて現場にて各種の設定調整をおこない引渡しをいたします。
システムの安定稼動
お納めしたシステムは納入直後から故障もなく安定動作しているそうです。その後も機器の安定動作実績により数次にわたるノードの追加が行われています。