お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機導入事例

ファイルサーバ導入事例 (抜粋)

Gaussian導入事例 (抜粋)

学科で共同利用するGaussianシステム導入例【大学・導入事例】

はじめに

学科で共同利用するGaussianクラスタシステムを増強するため、弊社のGaussianクラスタを導入していただきました。右写真は今回納めさせていただいたGaussianクラスタです。機器はメタルラックに整然と搭載されておりスマートな印象です。保守性にも優れ、最下段にはUPSを搭載し低重心です。

お客様の状況

このGaussianクラスタは学科の共同利用環境として使われ、学生から先生方まで幅広い層の多くのユーザ様にサービスを提供します。そのためシステムに求められる機能は、小規模ジョブを大量に平行処理する機能と、大規模ジョブを高速に並列処理する機能に分かれます。システムにはこの状況を考慮したうえで、高性能かつ高コストパフォーマンスな設計を求められました。

お客様のご希望

1. 安心して使えるGaussian環境を構築してほしい。
2. 大規模Gaussianジョブを高速に動作させたい。(速度と規模が必要)
3. 小規模Gaussianジョブを大量に流したい。(CPU数も必要)
4. 学科の共同利用環境なので、ジョブスケジューラの設定はきめ細かく相談に乗ってほしい。
5. 自作ソフトの開発や実行にも対応する必要があり、開発環境が必要。
6. ファイルサーバは安定した製品を使いたい。
7. 計算機と独立した管理サーバが必要。
8. 短納期で納品され、すぐに利用開始したい。
9. 学科の共同利用環境なので、5年間の保守を行ってほしい。
10. 技術的にしっかりしたサポートをしてほしい。

弊社の取り組み

大規模計算と小規模計算・大量処理を同じ計算機で実現しようとすると、CPU、メモリ、ディスクを最高にした高価な計算機の数が必要となり高価になります。そこで大規模計算用と小規模計算・大量処理用とで、計算機を独立させることにしました。

● 大規模計算用 1台 
Gaussian4並列実行で最高速度を実現しています。メモリ、スクラッチディスク共に大容量で、学科の共同利用環境として充分な計算規模を実現しています。
静音サーバDPr690
Dual-Core Xeon 3.0GHz 4コア 16GBメモリ、スクラッチディスク1TB (RAID0)
システムディスク250GB (2重化)

● 小規模計算・大量処理用 2台 
小規模計算をシリアルに大量処理しています。また、小規模な並列処理も可能なキューを設定し、シリアルジョブとパラレルジョブの混在環境を実現します。
静音サーバDPr490 
Quad-Core Xeon 2.33GHz 2node 16コア、16GBメモリ、スクラッチディスク250GB
システムディスク250GB (2重化)

● システムの自動ジョブ管理 (LSF)
学生と先生方の双方がヘテロジニアスな3ノード20コアのクラスタを共同利用されると、利用状況は複雑化します。これを各自でホストの空き状況を確認しながらジョブ投入するマンパワーでのスケジューリングで運用には、混乱を避けるために固定的な管理を行うことになり資源の無駄が起こりやすくなります。そこでLSFによる自動ジョブ管理環境を搭載し、利用実態に適応させたキューを作成しシステム管理者の負担低減と、システムの使い易さ両立を目指しました。

● 管理サーバ (ファイルサーバ部) 1台
管理サーバには実績のある「SAS5iR SAS RAIDカード」と500GB SATAディスク2基を搭載し、500GBのRAID1で構成されたファイルサーバを実装しています。システムは安定志向でFSB1033MHz Xeon 3000番台を採用しています。
低騒音ファイルサーバDPe840
Dual-Core Xeon 2.13GHz 2コア、2GBメモリ、ファイルサーバ領域500GB (RAID1)
システムディスク250GB (2重化)

● 管理サーバ (アプリケーションサーバ部-開発環境)
管理サーバには開発環境も搭載されます。開発環境は、一般的なソフトウェアのコンパイル用には高性能なインテルコンパイラを搭載しています。

● 管理サーバ (アプリケーションサーバ部-Gaussian)
管理サーバにはアプリケーションも搭載されます。GaussianはGaussian社が公認するPGIコンパイラでビルドし安心してGaussianを利用できるようにしています。そのため、PGIコンパイラを搭載しています。

● UPSの搭載
システム全体はUPSで停電 (瞬停) などの電源トラブルから守られており、一定時間で電源が復旧しない場合は自動的にシャットダウンされる設定となっています。UPSはワイヤーラックの最下段に搭載され全体の低重心化にも役立っています。

● 完成品で納入し、導入はオンサイト作業で即日稼動
システムは弊社工場で実稼動状態での試運転を行った後に出荷します。導入はオンサイト作業で設置し、即日稼動を目指します。

● ユーザの声を取り入れたLSFポリシーの決定
学科の共同利用環境ですから利用者数も多く、使うなかでご要望やご不満は当然でてきます。そこでLSFを仮設定して仮運用を行い、少し利用した後にご要望を反映した今後のコンサルティングを行います。

● 20コアの威力
写真ではコンパクトに見えますが、中には20コアが内蔵されています。この1コアは古いアーキテクチャのCPUの倍の性能がありますから (20 x 2 = 40) 古い40CPUクラスタと互角の性能を持っていると考えることが可能です。非常にパワフルなクラスタなのです。

● 少ない部品点数は安定稼動に貢献
デルのサーバやワークステーションは量産効果が高く抜群の安定感を持っています。それがマルチコア化によりノード数の削減につながりシステムレベルでの故障率の低下にも大きく貢献しています。さらに低消費電力、低発熱量、低騒音、省スペースです。

● 標準的なシステムは汎用性が高い
システムはソフトウェア環境やアプリケーションのビルドを含めて可能な限り一般的な構成としています。普通にLinuxで利用されているアプリケーションはほぼ間違いなく動作します。そのため、後にインストールが必要となるアプリケーションでも、その大半は容易に動作させることができます。

● 5年間保証
ハードウェアはデルの計算機を基本コンポーネントとして採用しているため、5年間のオンサイト保守と、5年間の修理部品保証を付帯させることができ、共同利用環境として5年間の長期運用に対応できます。

まとめ

管理ノードを含めて4ノードの比較的コンパクトなクラスタですが、システム的には共同利用環境でのヘテロジニアスな計算機の自動運転システムであり、しかも5年間のオンサイト保守も含まれているなど、中身の濃いシステムです。それを短納期で安定稼動させることができました。設置スペースのコンパクトさなども含めて弊社としてはやり甲斐のある仕事となりました。