お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機導入事例

ファイルサーバ導入事例 (抜粋)

Gaussian導入事例 (抜粋)

Xeon 60core & RAID10FS 低騒音PCクラスタ【大学・導入事例】

お客様のご要望

お客様は以下のことをご要望されていました。

1. 大きなメモリを必要とするジョブが時々あるので、大容量のメモリを搭載したノードが欲しい。
2. 小さなメモリで動くジョブではコアの数量が欲しい。
3. 大きなメモリで動くジョブと小さなメモリで動くジョブを、ジョブ管理システムにより適切なマシンに自動的に割り当てするような仕組みを構築して欲しい。
4. 2つの研究室で混乱せず共同利用できるように設定を工夫して欲しい。
5. ストレージは2重にして、定期差分バックアップを行うように設定して欲しい。
6. オンサイト保守を前提とした提案をしてほしい。
7. EIAラック1本に搭載したシステムを希望します。

主要検討課題

コア数を必要とするジョブと、大きなメモリを必要とするジョブの両立を、二つの研究室で混乱なく利用できるようにすることと、バックアップ処理が計算に与える影響を最小かつ高速処理させることが課題でした。

構成は1UサイズXeonサーバで52コア総メモリ容量52GBのHPCクラスタを構成します。大容量メモリ搭載機はメモリスロットを1筐体あたり16スロット持ち、1000W電源を搭載するHPCワークステーションDPr690を2台によるXeon 8コア総メモリ容量64GBのHPCクラスタを採用しました。

全てのノードにはジョブスケジューリングが安定して機能するLSFを搭載しており、お客様のご要望を満たすようなキュー構成を設定しました。

お納めしたHPCクラスタシステム

管理ノード兼ストレージシステム: (管理サーバー1台+ディスクエンクロージャー2台)

HPC-ProServer DPe1950 1台 (低騒音ファイルサーバホスト)
HPC-ProServer DPm1000 2台 (低騒音ディスクエンクロージャ)
SAS-RAIDコントローラ PERC5e

演算ノード :

HPC-ProServer DPe1950 13ノード  (低騒音HPCクラスタ)

CPU : デュアルコアXeon 2CPU4コア
メモリ : FB-DIMM 667MHz 4GB
HDD : 250GB x 2本 (システムディスク + システムバックアップ)

HPC-ProServer DPr690 2ノード  (大容量メモリHPCクラスタ)

CPU : デュアルコアXeon 2CPU4コア
メモリ : FB-DIMM 667MHz 32GB
HDD : 250GB x 2本 (システムディスク + システムバックアップ)

ストレージシステムの特徴

1台のディスクエンクロージャーはホームディレクトリ用のファイルサーバとして運用し、実効容量1TBのRAID10 (スペアディスクあり) のボリュームを持つ。(ディスクベイには十分な空きがあり、ディスクドライブの追加が可能)

もう1台のディスクエンクロージャーはホームディレクトリのバックアップとして運用する。バックアップデータは1週間おきに差分バックアップを行い、ホームディレクトリのデータのバックアップを行っている。(ディスクベイには十分な空きがあり、ディスクドライブの追加が可能)

2台で構成された2つのRAIDボリューム間は物理的には12Gbpsの理論転送帯域を持つSAS X4で接続されており、従来のNASのように1GbpsのEthernetを経由することなく12Gbpsの高速なSASデバイス間のみのファイル転送でバックアップが行われる仕組みを持っています。そのため高速転送が可能のみならず、外部のEthernetに余分な負荷を与えることなくバックアップを実現しています。

計算ノードの特徴

13ノード 52コアの1Uサーバーは、コアあたり1GBのメモリを搭載し、MPI並列ジョブと、多量のジョブ向けの構成です。32GBのメモリを搭載している2台のWSは、大容量メモリを使用するジョブ向けの構成です。

システム運用の特徴 LSFによるスケジューリングで課題解決

2つの研究室にて公平に共同利用ができるように、1UサーバーとWSをジョブ管理ソフト(LSF)により、研究室別にキューを分けて設定しています。作成したキューは以下のとおりです。

研究室1用の1Uサーバー実行キュー
研究室1用のWS実行キュー
研究室2用の1Uサーバー実行キュー
研究室2用のWS実行キュー
研究室の境界無くどのホストでも実行可能なキュー

通常のシリアルジョブや小さな並列ジョブは研究室別の1Uサーバー実行キューにジョブを投入します。大容量メモリが必要なジョブの場合には研究室別のWS実行キューに投入します。各計算機のキュー、搭載されているコア数と同数の4プロセスが実行可能な設定としています。

これとは別に、特に大規模な並列ジョブを走らせるために多数のプロセッサが必要な場合には、どのホストでも実行可能なキューにジョブを投入します。システムはこれらの利用ルールで運用されます。

製造と納入

EIAラックへのラッキング

EAIラック1本へのラッキングでは、弊社工場内でラックに搭載した状態でシステムとして完成させたうえで、各種テストを行い、ラッキングの完成度を高めました。デルの1Uサーバはスクリューレス仕様の完成度が高く、保守性が良いため、万一の故障にも主要部品はホットスペアできるため、システム停止が最小で済みます。

クラスタを構成する基幹の部品は全てデル製品を採用しW保守で安心

計算機のみならず、ネットワークスイッチなどもデルの純正品を採用しています。HPCクラスタは全体が相互に依存して稼動しており、特にホスト機、ネットワークスイッチ、UPSなどの停止はシステム全体の停止に直結します。これらの基幹部にもデル純正品を採用することで、デルサポートによる迅速なオンサイト修理の実施と、無償修理パーツ保証が受けられ、万一の故障時にも迅速な復旧が無償で可能となり、稼働時間の最大化を実現します。

徹底的なエージングをしてから出荷

計算機のみならずUPS、ファイルサーバ、スイッチまで全てを利用状態に組み上げて、OS、開発環境、ネットワークなどもセットアップして、徹底的な長期間高負荷テストを実施することで、お客様先での導入初期に発生しやすい諸々のテスト作業や修理・改善などを最小化し。迅速な立ち上げと、立ち上げ後の安定稼動を達成します。

4週間を下回る納期で本稼動

弊社の標準納期は5週間と余裕を持ってお伝えしております。今回のシステムではご注文を頂いてから、部材発注⇒入荷⇒組み立て/設定⇒エージング⇒オンサイト設置⇒本稼動までの全工程を約4週間弱で完了させました。