お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機導入事例

ファイルサーバ導入事例 (抜粋)

Gaussian導入事例 (抜粋)

総物理容量41TBのストレージのジャストインタイム導入例【研究所・導入事例】

はじめに

お客様は大規模な化学計算を行われている研究者の方です。恵まれた計算機環境をご使用なのですが、その計算機から出力される膨大な計算結果を蓄積し研究に利用するための、優れたストレージ環境の充実が課題だとのことでした。

現在は計算センターのストレージを利用されているのですが、センターは容量制限があるため、その容量を使い切ってしまった後は、新しい計算を行うためにはストレージのスペースを空ける必要があるのだそうです。しかし、研究が終わるまでは計算結果を削除することはできないため容量に余裕が必要となり、研究室専用の大容量ストレージをお考えになられているとのことでした。

お客様によると、計算結果ファイルは月にテラバイトのオーダーで増加することもあるそうです。そのため、容量の追加やシステムの拡張が容易な設計であることは必須とのことでした。また、多量のファイルを操作されるため、ストレージの速度も重要だとのことです。そのため、個々のファイルサーバの速度や容量は重要だが、あまり容量の確保に目を奪われ1台のサーバに大量のディスクを接続すると、I/Oが一箇所に集中するので困る。サーバの台数とディスク容量バランス、ネットワーク負荷までを含めてシステムインテグレーションをしたいので、それに対応できるベンダーが良いとのことでした。

さらに、最初から大容量のストレージを導入するのはリスクを感じるので、必要に応じた容量をジャストインタイムで、確実に利用できる状態に仕上げての納入を希望されました。

研究室は少人数で運営されており、計算機やストレージの構築や運用に割り当てる人的な余裕が乏しいため、堅牢なシステムであることはもちろん、ベンダー側の技術サービス体制や迅速なオンサイト保守体制が整っていることも重要な選定要件とされていました。

お客様のご要望

・ 堅牢なシステム
・ 高速なシステム
・ 大きな容量に対応できる
・ ジャストインタイムで納入できる
・ 拡張性が高い
・ 技術サポートが充実している
・ オンサイトでの保守体制が整っている
・ HPCを理解しているベンダーであること

弊社の提案

・ 1UのHPCサーバをホストとして用いる
・ 外付けのSAS対応ディスクエンクロージャを採用する
・ ディスクエンクロージャはSASによりカスケード接続でき、容量の拡張性を持たせる
・ ディスクドライブはSAS-RAIDコントローラで、RAID構築する
・ RAIDポリシーはRAID10を基本とする
・ ファイルシステムは実績のあるext3を用いる
・ 単一のRAIDボリュームサイズは2TB以下とし、ボリュームレベルでの保守性を確保する
・ リモートでのシステム監視ツールを実装する

優れたSAS RAIDカード「PERC5e」

弊社のSAS RAIDカード「PERC5e」は、2ポートのSASポートを外部に持っており、各ポートには3基の外付けディスクエンクロージャを接続でき、45基のディスクを取り扱えます。ポートは2つですから、合計で90基のディスクを実装できることになります。しかも、各ポートに接続された45基のディスクはディスクエンクロージャの筐体を飛び越えて、理論的にはフラットな空間上で取り扱うことができるため、柔軟なRAID構成を設定することができます。また、筐体の追加も可能なため、拡張性にも優れています。

柔軟なSAS接続のSAS/SATAディスク両対応のディスクエンクロージャ「DPm1000」

弊社のSAS接続をサポートするディスクエンクロージャ「DPm1000」は、15基のディスクを内蔵可能です。搭載可能なディスクは低価格・大容量のSATAドライブと、性能・信頼性に富んだSASドライブの双方から片方を選択できます。もちろんドライブはホットスワップベイに実装されています。電源は冗長化されておりホットスワップが可能です。この筐体をSASケーブルで最大3基カスケード接続しPERC5i SAS RAIDカードに繋ぐことができます。この場合、物理的には3基の筐体に分散して見えますが、SAS RAIDカードからは論理的に1基の筐体として取り扱うことができ便利です。

HPC-ProFileServer DPm1000へリンク

高い信頼の1Uサーバ「DPe1950」をホスト機に使用

ホスト機には弊社がHPC用で利用実績のある1Uサーバ「DPe1950」を採用しました。DPe1950は弊社はHPC用で使用していますが、本来は高性能かつ高信頼性のサーバ製品です。その信頼性は高く、弊社ではこれまで一度も不具合に遭遇していません。その気配も感じさせません。さらに、ホットスワップ可能なRAID1構成のシステムディスク、冗長化電源、冗長化ファンなど無停止での運用にも配慮されたサーバです。性能面でもDual-Core Xeonを搭載し、高速FB-DIMMメモリを採用するなど、格段に高性能なホスト機です。

HPC-ProServer DPe1950へリンク

使用するサーバはファイルサーバに適したものを用いる

巨大なストレージには大切なデータが沢山保管されているため、システムの堅牢さは重要です。そこで、ストレージでは、主要部品が冗長化されてたり、部品交換が完全にかつ簡単に行えるような仕組みを持ち、出来る限りシステムを停止させずに修理ができることは大切です。

 

1回目 ホスト1台 + SASエンクロージャ2台を納入 (14TB)

一度に大量に導入しても、リスクが高くなり、その裏では陳腐化も進行します。そこで、必要に応じてシステムを育てて行くようなイメージで構築を進められました。

最初はホスト1台と2台のディスクエンクロージャをSAS接続してシステムを構築しました。

■ホスト: Dual-Core Xeon 1CPU 2コア、2GBメモリ
■SAS RAIDカード: PERC5i、12Gbps SASポート2口、合計SAS帯域24Gbps
■SASディスクエンクロージャ 2台: SATA 7.5krpm 500GB x 14 x 2、計28ディスク、総物理容量14TB
■RAID構成: RAID10

 

2回目 SASディスクエンクロージャ2台を追加 (9TB)

総物理容量14TBのストレージをRAID10構成にして利用開始されました。新システム導入初期に起こりがちな不安定動作も起こさず、不安感は全く無くシステムは順調に動き出しました。そこで計画どうり、センター側からデータを引き上げると、システムは一挙に満杯になりました。そこで、急遽ディスクの追加を決定されました。

SASディスクエンクロージャを2台追加導入されました。ホストには2ポートのSASポートがあり、その内の1ポートは空いています。そこに2台目のディスクエンクロージャをカスケード接続しました。

■SASディスクエンクロージャ2台: SATA 7.5krpm 500GB x 9 x 2、計18ディスク、総物理容量9TB
■RAID構成: RAID10

 

3回目 ホスト1台 + SASディスクエンクロージャ2台を追加 (9TB)

最初のホストには総物理容量23TBのストレージが接続されています。機能的にはあと2基の筐体を接続可能ですが、当初のご希望に従い、余裕が残っている状態で構成を固められました。容量の追加には新たにホストを追加することを決定されました。

新たに、ホスト1台とSASディスクエンクロージャ2台が追加されました。

■ホスト: Dual-Core Xeon 1CPU 2コア、2GBメモリ
■SAS RAIDカード: PERC5i、12Gbps SASポート2口、合計SAS帯域24Gbps
■SASディスクエンクロージャ2台: SATA 7.5krpm 500GB x 9 x 2、計18ディスク、総物理容量9TB
■RAID構成: RAID10

 

4回目 SASディスクエンクロージャ2台を追加 (9TB)

1台めのホスト機と同様に、今回も2台のディスクエンクロージャを追加しました。構成は経験のあるSATA 500GBドライブで構成しています。

■SASディスクエンクロージャ2台: SATA 7.5krpm 500GB x 9 x 2、計18ディスク、総物理容量9TB
■RAID構成: RAID10

 

これからも追加導入を検討 (ジャストインタイム)

約半年の間に4回の納入を行い、弊社の仕事はお客様のご希望を満たしているとのご評価をいただきました。この実績を基に、今後も容量が必要になった際には追加を積極的に検討されるとのことでした。

順次導入することのメリット

・ リスクの分散ができる
・ 必要な時に必要な分だけジャストインタイムで導入できる
・ 一回がコンパクトなので手間がかからない
・ 一回がコンパクトなので迅速に処理ができる
・ 最新の技術を確認しながら導入できる
・ 業者との関係が疎遠にならない

安定稼動している

最初のシステムを納めてから現在まで約半年ほど経過しています。その間に4回のシステム導入と付帯作業が個別に行われています。しかし、その全体で一度の障害も発生していません。そして現在では、総物理容量で500GB x ((14 x 2) + (9 x 6)) = 41TBのドライブがRAID10構成で安定動作しています。非常に堅牢なシステムです。

5週間の標準納期を厳守し、ジャストインタイムのご要望に応えました

弊社のシステムの標準納期はご発注から本稼動開始まで5週間としています。今回は4回のご発注を承りましたが、その全ての納期は1月以内の本稼動を達成しております。この運用開日の厳守があるからこそ、必要な時に必要な容量をジャストインタイムでご発注いただけるのです。

工場でのシステム作りこみ

弊社工場で設定中のSASファイルサーバ群の写真です。左奥のラックに搭載されている2台のエンクロージャは、このお客様にお納めした製品です。

不具合は1度も発生しない

工場内でのシステムレベルの試運転では、ディスク全容量へのランダムかつ莫大な数の、ディレクトリの作成、ファイルの書き込み、読み出し、削除をループで長期間行います。その間も不具合は発生しませんでした。非常に安定した計算機です。さらに、他のお客様の製品も含めて多数の製品をテスト来ておりますが、初期の不具合の発生は少ないです。さらに、これらは全てデルサポートによる迅速な部品交換で迅速確実に修理完了しています。修理完了後は安定動作しその後の経過も全く問題がありません。これは製品の基本的な完成度が高く、保守部品の品質も高い水準に保たれていることを示しています。大手メーカー製品ならではの安心感です。

万が一障害が発生したら、関連部品は根こそぎ交換が最良

高信頼性のサーバ製品は、設計段階で徹底的なテストが行われており、弊社工場へ入荷する量産レベルの製品での不具合は殆どありません。また、あったとしても、初期の部品不良であり、傾向不良であったことは皆無です。しかも通常の初期不良は、弊社工場で行うシステムレベルの試運転により、容易に発見できます。

初期不良が発見されると即刻にデルサポートに連絡され、速ければ当日中に、遅くとも翌日には修理が完了するため、試運転テストは故障に影響されることなく継続できます。そのため出荷のスケジュールが影響を受けることは殆どありません。(写真は弊社工場内で、修理作業を行うデルサポートのサービスの様子です。)

「関連部品の根こそぎ交換」を支える豊富な修理部品在庫を持つデルサポート

デルサポートの迅速・確実な修理を支えているのが、豊富な修理部品の在庫であることが明らかになってきました。例えばメモリエラーが起こる場合には、疑わしい箇所はメモリの側か、メモリを挿すマザーボード側かは、テストをしながら絞込みが必要です。この絞込みの作業に長い時間を浪費するのです。デルと弊社のサポートポリシーでは、双方が疑わしいのであれば、その双方を根こそぎ交換することで、短時間に確実に修理を完了することができます。デルサポートはこの手法を取る事で、迅速確実な修理を実現しています。すなわち、疑わしい部品を根こそぎ良品に交換してしまうことで、相性問題解明のために費やす修理時間の浪費をシャットアウトしているのです。