![]() |
|
![]() |
|
![]() |
地球温暖化や資源枯渇など化石燃料が抱える課題を解決するため原子力エネルギーに期待が寄せられています。この期待に応えるため各研究機関では原子力エネルギーを安全かつ効率的に利用するための研究開発が進められています。
原子力関連の研究開発では実験が難しい課題が多いためシミュレーションが広く活用されています。また原子力プラントは高い安全性が求められるため精度の高い大規模なシミュレーションが必要です。
原子力プラントは膨大な数の部品で構成されており、これらの開発と試験にも多くのシミュレーションが求められます。しかも安全にかかわるシミュレーションのため全てのケースが重要です。そのため計算機システムには高いスループットが求められます。
幸いにも、計算機の性能向上は日進月歩のため、計算速度の向上は最新の計算機を定期的に導入することで実現できます。そのためには計算機のスクラップアンドビルドを計画的に行うことが大切です。
組織全体で導入する大型計算機は、グローバルな課題が優先されるため、ローカルな課題の優先順位は並に据え置かれます。そのため計算機が混雑すると処理の完了に時間がかかることがあります。そこで、部門ごとに手ごろなクラスタ型計算機を導入し、スケジュールの厳しいジョブは手元の計算機で処理し、スケジュールに余裕のある計算を大型計算機で処理させるような負荷分散をすることが理想です。
ローカルに導入する計算機は構成の自由度が高いので、運用する計算機に搭載するコア数やメモリ容量などにメリハリを持たせ、大規模計算にも対応できるような構成を部分的に導入しておくことで幅広い課題に対応できます。
オープンソース化進む現在のアプリケーションは、グローバルな開発グループの動向と同期していることが大切です。そのためにはシステムのアップデートを含む動作環境の管理が大切です。部門別の計算機ならシステムアーキテクチャ、OS環境、開発環境などの更新を適切なタイミングで自由に行えるため外部の開発グループとの同期もスムーズです。
試行錯誤が続く研究開発では計算機のキャパシティーを限界まで使い切るようなジョブを投入する場合もあります。このような場合でもローカルな計算機なら他のグループへの迷惑を気にすることなく、思い切ったジョブ投入が可能です。
従来の計算機より2倍〜3倍も広いメモリ帯域を持つ最新のXeon (Nehalem)プロセッサを搭載した計算機は、並列化されたアプリケーションなら従来の数倍の計算速度と計算規模を実現できる魔法のようなシステムであることが最近の数カ月で確認されています。
Xeon (Nehalem)アーキテクチャはCPU毎にメモリコントローラを搭載しているためシステムに搭載できるメモリ容量を大きく増やすことが可能です。さらにメモリスロット数も多いので、将来必要が出てきた場合にも容易にメモリの追加搭載が可能です。
近い将来、最大で32コアを搭載したメモリ共有機が登場すると考えられます。メモリ共有のためOpenMPによる並列や並列化された数値演算ライブラリを用いたアプリケーションでの高い並列性能が期待できます。そこで、このような計算機の登場を考慮したシステム設計が大切です。
計算機の高速化と大容量化に伴い、出力される結果ファイルの量も膨大になっています。そこでファイルサーバの高速化も大きな課題です。幸いにも10GbEネットワーク環境が普及期を迎えており、廉価に高速なファイルサーバシステムを実現できるようになりました。
シミュレーションの重要性が増すに従い、保存の必要な貴重なデータも増加の一途をたどります。そこで、ファイルサーバだけでなく大容量のデータアーカイブシステムの構築も必要になります。10GbE対応スイッチはオプションで4ポートまでの10GbEポートを追加でき拡張ストレージの追加も容易です。
上記のようなお客様の状況と利用可能な機器の現状を考慮しシステム提案を行いました。もちろん、既存システムとの共存も考慮しています。お客様と議論を重ねる中でシステムの構成が固まりました。
CPU Server |
||
HPC-ProServer DPeR410 16node 128core (1U)
|
||
CPU毎に32GB/sのメモリ帯域を持ち、メモリ性能律速型アプリケーションの処理性能を最高に高める仕様の計算機です。CPUクロックは抑えていますが実効性能への影響を抑えながらコストや消費電力を節約しています。メモリスロットには空きがあり、必要に応じてメモリ増設も可能です。処理性能は効率の良いノード内並列処理で実現し、スループットはノード数で確保するシステム設計を採用しています。 ネットワーク並列処理については現時点では予備的な位置づけとしており、廉価なGbEを用いた並列計算までを実行可能としています。しかし将来より高速な並列計算の必要性が高くなって来た際にはInfiniBandの追加搭載も視野に入っています。 演算サーバ部は16台の1Uサーバで手堅く構成しています。このサーバはDELLのHPC用モデルとして設計時点から部品レベルのテストが徹底して行われ、最新鋭のDELLアモイ工場にて厳しい品質管理の下に生産された高品質なサーバです。さらに弊社工場ではクラスタ化する工程において徹底的な負荷試験を実施し、少しでも動作に異常が検知される関連する部品を予防保守的に交換し、より信頼性の高い計算ノードとしてクラスタに組み込みます。サーバに搭載している管理ツールは納入後もシステムを無人監視しており、異常を検知するとすぐにユーザに通知し、素早いオンサイト保守により迅速な復旧を実現します。 |
||
Master Server / File Server (RAID Array) / Switch |
||
HPC-ProServer DPeR610 1node (1U)
|
||
管理サーバ部分の特徴は、ネットワークに最新の10GBASE-SFP+を採用しファイルI/Oの高速化を実現していることです。演算サーバ部は外観こそコンパクトですが、その内部には高速なCPUコアが128個も搭載されており、前世代のXeonに換算すると400コア級の実力を持っています。この高い演算性能が求めるファイルI/OをGbEネットワークで賄うことは困難です。そこで、10GbEアップリンクを2ポート備えた24portのGbEスイッチを採用し、ファイルサーバとの接続に10GbE用いることで十分な通信帯域を確保しています。さらに、ファイルサーバに接続するストレージにもRAID10を採用し高速化しています。加えてサーバには12GBの主メモリを搭載しており、データ書き込み時にディスクI/O処理がオーバーフローした場合にはメモリが書き込みキャッシュとして機能し負荷集中が緩和されます。 |
||
UPS / KVM / EIA_RACK |
||
APC-UPS 3000VA x5
|
||
システムの長期安定稼働が必要な場合はUPSの搭載をお勧めします。お客様のシステムの場合は、3000VAのUPSを5台搭載しシステム全体がUPSに接続される仕様です。そのため瞬停が発生しても処理中のジョブがフェイルしなせんから、厳しいスケジュールでも安心です。 システムは42Uラックに整然と搭載されており維持管理が容易です。弊社で利用しているEIAラックはHPC利用にも最適のラックです。全・背面扉の開口面積が大きく、張られているパンチングメタルの開口率も高いので、通気性に優れています。背面扉は観音開きになっており、背面側の空きスペースを節約できます。ラック全体に亘ってケーブルの引き回しや取り出しに配慮した設計となっており、ケープ量の多いHPC計算機の搭載に適しています。ラックに搭載できる機器類の総荷重は1Tに近く設計されており非常に堅牢です。 |
||
ハードウェアの組み立ては、計算機のラック搭載、ケープリング、基本動作の確認、不具合検査と修理などを経てハード的に完成させます。弊社はPCクラスタ専用工場を持ち経験を重ねた専門スタッフがこれらの工程を手際よく行い、またたく間にクラスタとしての外観を整えます。
HPC計算機として快適に利用していただくためには次のようなソフトウェアインストールとシステム設定が必要です。
これらのカスタム設定を完了させた後、動作確認と負荷テストを行いシステムを完成させます。
完成したHPCクラスタは、そのままの状態で専用の搬送台車に搭載し、さらに精密機器運送用のトラックによりお客様サイトまで直送します。同時に弊社の専門スタッフがお客様のサイトでクラスタの据え付け工事からネットワーク接続、ストレージ設定などを行い、最後にジョブスケジューラ経由のジョブ投入と、リモートからのファイル読み書き確認までを行います。同時に操作説明も行い、疑問にお答えします。
システムはMPI用に用いるGbEスイッチを除くと、他の機器は全てDELLの純正品を採用した「All DELL」 構成となっており、一元的なハードウェア保守体制が期待できるため安心です。 また、システム全体を総合的にモニターし障害の発生を検知できる総合管理ツールを搭載しており、万一の障害でも障害箇所の特定、保守部材の事前手配、迅速確実なオンサイト保守の実現など、シングルベンダー構成ならではの高いサポートレベルが期待できます。
HPCシステム運用を行っていると経験の蓄積が求められる技術的な課題が沢山あります。このような場合には弊社のHPC経験が豊富な技術スタッフが的確なサポートを行います。
技術サポートに期待されることはHPC特有の難易度の高いご質問に対しての迅速で的確な対応です。そこで、お客様かのお問い合わせについてはメールのみならず、専門の担当者による電話でのやり取りを積極的に行い、正確な情報の共有に努めています。