お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機導入事例

ファイルサーバ導入事例 (抜粋)

Gaussian導入事例 (抜粋)

大手電機メーカー様の部門HPCサーバ Dual-Core Xeon 24コア & FS【導入事例】

はじめに

お客様は大手電機系メーカーの研究開発部門にご所属のシミュレーショングループ様です。このグループで共同利用されているHPCクラスタの更新が行われました。主に利用を予定されているアプリケーションは流体計算ソフトのSTAR-CDですが、他にもケイデンス社の電子設計ツールやアクセルリス社のMaterials Studio®なども利用されるそうです。また、自作のプログラムも利用されるそうです。新しいHPCクラスタを導入し計算機能を向上させることのみならず、併せてこれらのアプリケーションのバージョンアップも実施することで、計算環境を刷新されました。

アプリケーションのバージョンアップがOSのバージョンアップを要求

シーディー・アダプコ社のSTAR-CD、ケーデンス社の電子設計ツール、アクセルリス社のMaterials Studio®などの最新バージョンはRedHat EL4で動作するため、RedHat EL3以前のOSを搭載している計算機上では動作せず、バージョンアップも出来ません。さて、お客様が使用されていたクラスタは導入から2〜3年が経過したシステムしのことで、搭載されているOSはRedHat 8/9であったそうです。そのため、これらのアプリケーションを最新のものにするためにはOSを更新する必要が出てきたそうです。

OSの更新を検討

当初は既設のシステムのOSだけの更新を検討されたそうですが、稼働中のHPCクラスタのOS更新のメリットはそれほど多くないと考えられたそうです。その理由を以下に挙げます。

◇ 全面改修すると、予測できない不具合が起こるリスクが高い
◇ OS、開発環境、アプリケーションの全ての更新作業は難しく、手間もかかる
◇ 作業を外注する場合でも、対応できる業者が限られるしコストも嵩む
◇ 現在稼働中のシステムを改修のため停止させると計算ができなくなり困る
◇ 実際には古いバージョンのアプリケーションも使うことがあり、OSを更新すると使えなくなってしまう
◇ 3年ほど使用したシステムを全面改修してもハードウェアの残寿命が短い

著しく性能と容量を拡張させたマルチコア機の導入

幸いなことに、お客様は別途計算機の増強も予定されていました。そこで、その新システムに期待し、アプリケーションを移動させ、新システムで利用する方針を固められたそうです。そこで、HPCテクノロジーズにもシステムの提案を依頼されたとのことでした。

新システムに求められる機能

お客様は下記の機能を求められていました。また、システムの安定性や保守の充実は特に強く求められていました。

◇ シーディー・アダプコ社のSTAR-CDの搭載
◇ ケーデンス社の電子設計ツールの搭載
◇ アクセルリス社のMaterials Studio®の搭載
◇ 各アプリケーションのLSFからのジョブ投入設定
◇ 自動負荷分散環境LSFの実装と設定

◇ 高い演算性能の実現 (多数の高速なコア搭載)
◇ 大容量のメモリ搭載
◇ 堅牢で高速なファイルサーバの実装
◇ 耐久性の高いハードウェアの実現

◇ 優れた開発環境の実装
◇ 高速な並列演算環境の実装
◇ 適切なOS環境の設定
◇ 適切なネットワークの実装

◇ 保守性に優れたラックへの搭載
◇ 手際の良いオンサイトでの設置/設定サービス
◇ 3年間の長期保守
◇ 翌日オンサイト修理

大手ベンダー製の最新鋭サーバを利用したHPCクラスタであることをご説明

HPCテクノロジーズのHPCクラスタは、大手ベンダー製の最新鋭サーバを基本コンポーネントに採用することで、高品質の製品と優れた修理サービスを実現しています。これまでの出荷実績でも、運用開始後の障害は皆無に近いことをお伝えしました。また、当日/翌日のオンサイト修理と弊社の技術サポートにより、順調な運用が提供できている状況もご説明しました。

◇ 大手ベンダーの標準サーバがベースで、徹底的な品質管理が実施されている。
◇ 修理部品の在庫管理が合理的に行われている。
◇ 修理の確実さを実現するため、部品交換もモジュール化されている。
◇ 自動診断ツールが搭載されており、障害箇所の特定が迅速/容易である。
◇ 全国のサービス拠点から修理スタッフと修理部品が当日/翌日には到着する。

全ディスクのRAID1化、オンサイト修理⇒ホットスワップ⇒オートリビルトで、連続稼動可能なシステム

万一のディスク障害でも継続運用を可能とする仕組みを全てのハードディスクに採用しました。ファイルサーバのみならず計算ノードにも採用しています。

▼ 障害が起きても運用を継続できるようにRAID1を採用
全てのハードディスクをRAID1化することで、万一のディスク障害が起こっても運用を継続できます。

▼ 判りやすい障害通知機能を搭載
RAID1を採用しているため、ディスク障害が発生しても運用は継続されるため、障害を見落とす可能性があります。そこで、障害が発生するとLCDパネルの色がオレンジ色に光り視覚的に判りやすいです。さらに異常個所をメッセージ表示で示されており障害箇所が簡単にわかります。背面にはLEDがついており正常時には青色に点灯している光がオレンジ色に強く輝きます。

▼ 統合管理ツールでブラウザからシステム状況を簡単に確認
さらに統合管理ツールを定期的に確認することでも障害が起きていることがわかります。ご要望に応じてメールでの障害通知も可能です。

▼ 無停止での復旧をオンサイトで迅速に実施し連続稼動を実現
ホットスワップができるため、オンサイト修理により無停止でディスクの交換が可能です。ディスクの交換が終了すると、RAID1のオートリビルド機能により無停止で復旧が行われ冗長性が復旧されます。

▼ ストレージにもRAID10を採用
ファイルサーバのストレージにもRAID10を採用しており、こちらも同様の手続きで復旧されます。

ネットワークスイッチは交換品の翌日配達交換サービス付き

HPCクラスタではネットワークスイッチの役割は重大です。全ての計算機はNFSでファイルサーバ上のボリュームを利用して計算を実行しているため、スイッチが故障するとクラスタ運用の全てが停止します。そこでネットワークスイッチは交換品の翌日配達交換サービス付きの製品を採用し、万一の故障すると良品が翌日に配達され、故障品と交換することにより、最小の停止時間で復旧が可能となります。

24Uラックへ整然と搭載し見栄えが良く、カギ付きで安心

テレビなどでもよく登場するようになったDELL製のサーバはラッキングすると見栄えも良いです。さらにセキュリティー面でも、ラックの扉のカギ以外に、各サーバのフロントベゼルもカギ付きです。また、24Uラックは重心を低くすることができ、地震にも安全性が高いです。

◆◇ ご提案したクラスタシステム ◇◆

◇ 計算ノード HPC-ProServerDPe1950 : 6台 (6node 12CPU 24コア、1Uサイズ)
CPU : Duad-Core Xeon 3.0GHz (2CPU 4コア)
Memory : 8GB (FD-DIMM 667MHz)
HDD : 250GB x2 (RAID1)
OS : RedHat EL4

◇ ファイルサーバ兼ホスト : HPC-ProServerDPe2950 : 1台 (2Uサイズ)
CPU : Duad-Core Xeon 3.0GHz (2CPU 4コア)
Memory : 8GB (FD-DIMM 667MHz)
HDD : 250GB x2 (RAID1)
Storage : 1TB (RAID10 (500GB x4))
RAIDコントローラ : PERC5i
OS : RedHat EL4
開発環境 : Intel Compiler Fortran/C++ v10、Intel MKL、Absoft Fortran
MPIライブラリ : Intel-MPI、HP-MPI (STAR-CD)
* ストレージはRAID10ですがスペアディスクは搭載していません。これは翌営業日のオンサイト保守が実施されるため、実質的には安全性は確保されるだろうとの判断からです。

EIAラック : 24U
Network (System Interconnect) : GbE 16ポート
自動負荷分散環境LSF
DVD : DVD±RW/RAM
Setup Service : オンサイトセットアップ
Support : 3年間の当日オンサイト保守サービス + HPCテクノロジーズの一次受けサービス

導入の決め手

これらの基本的な事を実現していることを最初にお伝えましたところ、特に以下の項目が導入の決め手となったとのことでした。

◇ 3年間の保守、翌日のオンサイト修理
◇ STAR-CDのセットアップ
◇ LSFのセットアップ
◇ STAR-CDとLSFとの連携まで含めたセットアップ
◇ 既存の計算機室のネットワーク環境へのNIS+、NTP、NFSなどを含めたセットアップ
◇ サーバー障害時の障害を検出するシステム
◇ RAID障害の障害通知機能
◇ RAID障害後の復旧のホットスワップ、オートリビルド機能、
◇ 前面からのアクセス可で、コードを抜かなくても良いメンテナンス性

受注と製造

受注後、直ちにサーバなどの手配を行いました。材料が入荷すると各部品をラックに搭載し、OSや開発環境のインストールやネットワーク設定、ファイルサーバの構築と接続なども行い完成状態に仕上げました。

お客様による工場内検査と改修

システムが完成すると、出荷前にお客様にご来社願い、工場内検査を実施していただきました。工場内検査によりお客様のご要望による細かな改修点をご指摘していただき、追加作業を実施することで、納入時にはより完成度の高い状態で納めることができました。弊社工場は都心にあり交通機関が充実しているため、気軽にご来社願い、チェックや打ち合わせをしていただくことが可能です。

1Uサーバとサーバの間を空けることで冷却性能も向上

改修作業の一例として、お客様のご指示によりサーバとサーバの間を空けるようにラッキングの調整を行いました。こうすることで筐体の全体から熱を放出することができるようになりました。

工場からの直送

HPCテクノロジーズの工場は1階にあるためトラックが直付けでき、大型のラックでもそのままトラックに積み込むことが可能です。写真は弊社の製品出荷玄関から直接トラックに積み込まれるHPCクラスタです。

ジャストインタイムでの稼動開始

工場内検査と改修点を行った後に客様のサイトに納入したため、納入日には可動状態にまで到達させることができました。

お客様から頂きました感想やご意見

納入後にお客様からご感想を伺うことができましたので箇条書きでご紹介させていただきます。

◇ HPCテクノロジーズは購入までの問い合わせや依頼したことについて迅速に提案や回答をしてきた。
◇ 納品前にHPCテクノロジーズの工場でクラスタシステムの確認ができた。
 ・ セットアップの詳細について打ち合わせを行い、細かい要望を反映してもらえた。
 ・ 質問について対応してもらえた。
 ・ 納品までにクラスタの不安点が解消できた。
◇ 3年間のオンサイト保守込みの価格が他ベンダーの1年センドバック保守よりも良い価格だった。
◇ 修理は翌営業日対応なので早い復旧が期待できる。
 ・ これまでのHPCクラスタでは1週間やそれ以上の日数を待たされた。
 ・ 計算機のダウンタイムを短縮する工夫が施されており、運用をしていく上で安心。
◇ HPCテクノロジーズはLSFのノウハウが豊富に蓄積されていて、安心してセットアップとサポートを任せられる。
 ・ オンサイト作業時に別ベンダーのクラスタのLSFトラブルも復旧してもらい助かった。
 ・ LSFに精通したベンダーでなければLSFのサポートは難しいと思う。
 ・ LSFの問題解決で解決までに時間が掛かるのは困る。
◇ クラスタのノードは全てRAID1のシステムディスクなので安心。
 ・ ディスク障害が発生してもそのまま運用ができる。
 ・ ハードディスク交換がホットスワップにて行えるので、迅速な復旧ができる。
 ・ ディスク故障が発生しても心配がなくなった。
◇ 前面のLCDパネルに障害メッセージと色による警告機能がある。
 ・ 何かトラブルが発生した場合でも判別が容易となり、故障箇所が直ぐ判り困ることが少なくなる。
◇ 統合管理ツールも操作が統一されていてシステム全体の様子が手に取るようにわかるので安心できる。
◇ アプリケーションベンダーとのやり取りが考えられるが、その際の情報交換がスムーズに行えそうだ。