お客様は大型のHPCクラスタを研究室で所有され、研究者の方々や学生さん達が共同利用されている大学の研究室様です。さて、今回のファイルサーバの導入は、既存のHPCクラスタのディスク容量が不足気味になってきたので、新たなファイルサーバを導入を検討されていました。
お客様のHPCクラスタには複数のファイルサーバが実装されており、これらのファイルサーバは導入時期や仕様が異なっています。また古いファイルサーバは故障の心配が高いうえ、一旦故障しオンサイト修理を依頼すると修理費が嵩む心配があります。そこで、弊社は以下の特徴を持つ最新のファイルサーバを導入されるメリットをお伝えしました。
・ 高品質のファイルサーバのため故障が少なく安心して使える
・ サーバ機とRAIDコントローラが共に高性能
・ 3年間のオンサイト「W保守」により、迅速な (当日/翌日) オンサイト修理を実現
・ 3年間の部品保証が付いているので修理や保守の費用を気にしなくてよい
・ HPCに精通したフィールド技術スタッフにより既存サーバからの移行サポートがあり安心
これらのメリットをご説明したところ、「良い提案のようなので、価格が折り合うなら検討してもよい。」との判断を示されました。
右上の写真は実際に納入した製品の、弊社内での設定作業中の写真です。
・ 既存のHPCクラスタのファイルサーバーのディスク容量が不足したのでファイルサーバーを増強したい
・ 既存ファイルサーバの今後の運用コストを考慮し、実質的な価格メリットのある提案をしてほしい
・ 最新の高速かつ堅牢なファイルサーバーを廉価に提供してほしい
・ 最低でも3年間のオンサイト保守と無償修理部品提供は必要
・ 運用状況によって途中でも保守期間の延長ができること
・ メール障害通知機能を持ちクラスタ管理者とHPCテクノロジーズのサポートへ迅速に通知できること
・ 障害通知後にサーバがどのような障害なのかが判り易いことが重要
・ 障害通知後にどのディスクが故障したのかが判り易いことが重要
・ 居室へ設置したいので静粛なタワー型のファイルサーバーが必要
・ IPは複数 (複数のサーバ構成) になってもかまわない
・ 大切なデータなので高い信頼性は必須
・ 障害時でも性能が落ちないRAID10がほしい
・ 迅速な復旧のためにスペアディスクも必要
・ 既存クラスタシステムへの増設ファイルサーバーとして追加作業を任せたい
これらのご要望を満たし、価格的にもメリットがある構成として、以下の提案を行いました。
・ DPe2900 FSシリーズ (タワー型の静音タイプのフアイルサーバ) を2台用いた構成
・ DPe2900はDual-Core Xeon搭載のサーバで性能は高い
・ 750GB SATAドライブを5個用いて1.5TBのRAID10ボリューム + スペアディスクを構成
・ 1台あたりの実効容量は1.5TB (RAID10)となり、2台で合計3TBを実現
・ RAIDカードはPERC5/iを搭載し高性能と高信頼性を実現
・ サーバを分散させることでI/Oを分散させることが可能
・ 3年間のオンサイト保守と無償部品保証を実施
・ 保守契約途中での保守期間延長も可能
・ メール障害通知機能を持ちクラスタ管理者とHPCテクノロジーズのサポートへ迅速に通知できる
・
完成度の高いシステム管理ツールを搭載し、障害箇所がブラウザ経由で判る
・ LED、LCDパネルにより障害の警告が行われる
・
管理ツールやLEDなどで、どのディスクが故障しているのかが簡単に判る
・ 居室へ設置可能な静粛なタワー型のファイルサーバ
・ アプリケーションや開発環境、ジョブスケジューラーを含めた動作確認と設定まで完了させる
・ 複雑なクラスタシステムに対応できるHPC技術を熟知しているオンサイトスタッフを派遣
・ 以下の作業をオンサイトで実施
- 新設サーバーの設置と動作確認
- 既存システムへの接続
- ストレージチェッカーにてメールによる障害通知機能のセットアップ
納入・設置したファイルサーバを、実際に利用開始されたお客様から、次のような感想を頂きました。
・ 既存のファイルサーバの残り容量がほとんど無くなっていたので、短納期の納入と迅速な運用が行われ助かった
・ データの保存先が増え、クラスタシステムの運用を活発にできるようになった
・ ファイルサーバを追加することで簡単にディスク容量が増やせるので安心
・ 複数のファイルサーバから構成されているので、ネットワークの負荷も分散されている
・ 設定が難しいのに障害通知メールの送信が確実に行えているので安心できる
・ システム管理ツールの出来が良いのに感動した
・ LED、LCDパネルの警報が実践的に良く出来ているのに感動した
・ 2台もファイルサーバを居室に導入したのに、作動音が低く静粛なので驚いている
・ 机の下にコンパクトに設置してくれたので助かる
・ オンサイト担当者がHPCクラスタに詳しいので細かな設定をオンサイトで頼めたので良かった
・ 既存クラスタへの追加作業までオンサイト作業で行ってもらい、もう運用するだけの状態で引渡しされたので便利
このように完成度の高いDELL製品を、使い勝手良くインテグレーションし、システム設計から設定・設置・本稼動まで、一貫してサービスする弊社のスタイルに合格点をいただくことができました。
HPC計算機システムを担当されているお客様は管理機能を次のように評価されていました。「ハードウェア障害がメール通知だけでなく、サーバー本体の前面からLCDパネルでの警告メッセージやLEDの点滅で判ることと、さらにブラウザ画面でのサーバー全体のステータス表示がされること、そしてこれらが全体で連携して機能していることなど、サーバーとしての管理機能の完成度が非常に高いよくできている。」とのご感想でした。
右写真の右側のマシンの上に付いているの角丸の横長の突起物がLCDパネルです。障害が起きるとここに障害箇所が表示されます。また、LCDもオレンジ色に強く光り、どのマシンが障害を起こしているかが瞬時にわかります。LCDで特定したマシンをさらに詳しく見るとディスクマウンタのLEDがオレンジ色に光っており、どのディスクが障害を起こしているのかも一目でわかります。
右の画面イメージはお客様にも気に入っていただけたシステム管理ツール「DELL OpenManage」の画面表示例です。このツールはブラウザベースのため、手元のパソコンからでも利用することが可能です。しかも日本語化された表示と日本語のダイアログボックスでマウスが使えますから、直感的に操作することができます。しかもこのツーだけでサーバ本体、RAIDコントローラ、ディスク筐体、RAIDを含む全てのディスクドライブ、その他のハードウェア資源の状況を全て表示させることができ、操作することができます。特に障害が発生した場合は急ぎますし緊張もしますから管理ツールの判りやすさと操作の統一性は重要です。さて、右の例示画面ではサーバに搭載されているRAIDコントローラ PERC5に接続されているSATAディスクが見えています。例えばここでディスクに「点滅」というコマンドを送ると、実物のディスクのLEDも点滅するため、ディスクを点検や交換する場合にも間違える心配がなく安心です。
統一されたDELLの管理ツールに対して、新興各社の製品を寄せ集めて構成するホワイトボックス系のファイルサーバシステムでは、サーバの管理ツールはサーバだけ、RAIDの管理ツールはRAIDだけ、ディスク筐体の管理ツールはディスク筐体だけと、それぞれがバラバラで操作性や表示も異なります。そのため全体を一体のものとして管理・操作する必要性が出てきた場合に、困惑することにもなりかねません。特に障害が発生した際には少しの間違いが大きな問題に連鎖する場合もあります。システム管理ツールの完成度の高さは重要です。
HPCクラスタにファイルサーバは必要不可欠ですが、高負荷で連続運転されるためファイルサーバも消耗しやすいです。さらに、安定稼動するHPCクラスタは大量のファイルを作成するため、容量も急速に減少します。そのため、ファイルサーバを追加する必要のあるHPCクラスタは多数あります。このようなお客様が考慮される点は、今回のお客様が要望された点と重なるものも多いのではないのでしょうか。今回のご導入事例ご紹介が、このような「安定稼動するHPCクラスタで必要となる追加ファイルサーバ」をご検討されている多くのお客様のご参考になればと思います。