お客様は国立の研究所に所属されている研究者の方です。研究内容としては世界各地で公開されている膨大な量の気象観測データを収集し情報処理や画像解析などを施した上でデータベース化され、それを一般公開されています。この解析作業はHPCクラスタで行われ、その結果をデータベースとして蓄積し一般公開するために専用のファイルサーバを運用されています。
解析用のHPCクラスタはラック搭載の大型のシステムを運用されており処理性能は足りているとのことです。ところが、気象観測データベースは日々増加してゆくため、ファイルサーバが容量不足気味になってきたそうです。さらに、このデータベースはネットワーク上に公開され不特定多数のユーザに利用される公開データベースとなっており、その存在価値が認められ利用者が増えるに従い、より高い信頼性が求められるようになっているとのことでした。そこでHPCテクノロジーズにも、容量拡大と信頼性向上を実現するために提案してほしいと、声をかけてくださいました。
お客様のご要望は、公開データベース用のファイルサーバのディスク容量増加と、サーバとしての信頼性がより強く求められるようになったサーバの信頼性の向上です。そこで、ストレージ容量が大きく拡張が容易で信頼性の高いデータベースサーバの更新を検討されていました。お客様が新データベースサーバに求められている要件は以下のようなものでした。
◇ Webサイトでの公開データベースなので、安定稼動するシステムであること
◇ 巨大なデータを取り扱うので高速システムであり、ボトルネックが少ないこと
◇
Linuxの大容量ファイルサーバの構築経験が豊富であること
◇ 導入システムについて相談対応してくれるベンダーであること
◇ サーバへのストレージ容量の追加ができること
◇ RAID障害の確実な復旧は必須、確実な復旧が期待できるRAID10 + スペアディスク構成
◇ 複数のRAIDアレイでのホットスワップディスクの共有ができること (ホットスワップディスク数の最小化)
◇ ハードディスク障害時のRAIDのリビルドやディスク交換はサーバを無停止でできること
◇ サーバが故障した場合に、当日の迅速な障害対応ができること
◇ システムのサポート期間は3〜5年間が必須 (経時変化を考慮すると1年間は短すぎる)
◇ 障害対応はオンサイトサポートで行うこと
◇ 修理用の部品をサポート期間中は保管していること
HPCテクノロジーズではこれまでも、HPCクラスタやスパコンからのデータを蓄積するための大容量のファイルサーバを多数構築しております。その過程で、弊社が採用しているデルのハードウェアの優れた点は現場において十分に把握しています。さらに、サポート品質と仕組みについてもよく理解でき、HPCテクノロジーズとデルサポートとの協力関係も上手く機能しています。もちろん、HPCテクノロジーズのファイルサーバ構築技術も向上しています。
HPCテクノロジーズの実際の経験からも、お客様のご要望はご尤もなことです。幸いにもHPCテクノロジーズはこのご要望にお応えすることのできる製品をご用意することができました。
◆ Webサイトでの公開データベースなので、サーバが安定稼動すること
◎ デルの高品質サーバは非常に安定しています。相当の件数のシステムを納入していますが、初期不良が少ないのはもとより、本運用を開始して連続負荷をかけるようになってからは本当に故障せず、多数のHPCクラスタが安定して動作しています。お客様のシステムに利用する計算機やストレージはこれらと同一のものなので安心してお勧めできます。
◆ 巨大なデータを取り扱うので高速システムであり、ボトルネックが少ないこと
◎ 数十テラバイトのデータを公開・管理用するサーバではこのご要求は必然です。そこでサーバにはDual-Core Xeon 1.6GHzを1CPU 2コア搭載し、重い負荷にも対応できる仕様です。さらに、メモリは8GB搭載し余裕を持たせています。RAIDコントローラは12GbpsのSASポートを2ポート持つPERC5eを搭載しています。この構成はHPCテクノロジーズが実地にテストしながら選定している構成であり、安定した性能を出しています。
◆
Linuxの大容量ファイルサーバの構築経験が豊富であること
◎ HPCテクノロジーズは多数のHPCクラスタやスパコンに用いる大容量のLinuxファイルサーバを構築してきており、経験豊富です。特に数十テラバイトのHPC用のLinuxファイルサーバの実際の運用にまで踏み込んだサポート経験を多数持っており、障害への対応力もあり安心してご利用していただけます。
◆ 導入システムについて相談対応してくれるベンダーであること
◎ HPCテクノロジーズではお客様のご要望を丁寧に伺い、お客様とご相談を行いながら、最新技術を採用したハードウェアやOS、ミドルウェア類を駆使してシステム設計を行い、優れたシステム提案を行ないます。
◆ サーバへのストレージ容量の追加ができること
◎ DPe1950サーバに搭載されるRAIDコントローラPERC5eは外部SASポートを2ポート持ちます。このポートには15基のディスクを内蔵できるDPm1000ディスクエンクロージャを最大で3台までカスケード接続でき、合計45基のディスクが実装できます。さらに、2つのポートがありますから、もうワンセット接続可能で、合計でエンクロージャ6台、92基のディスク搭載できます。750GBディスクを用いると、ファイルサーバ1台あたり67.5TBまで拡張できることになります。
◆ RAID障害の確実な復旧は必須、確実な復旧が期待できるRAID10 + スペアディスク構成
◎ RAID5はディスク障害の際に期待できるのは運用の継続までと考えた方が安全です。RAID5に確実な復旧まで求めるのは荷が勝ちすぎています。ストレージに確実な復旧を求めるのであればRAID10が優れています。RAID10は「2重化ディスク」を基礎としており確実な運用の継続ができます。さらに、確実な復旧の実現に関しても、新しいディスクへデータコピーするだけの最も単純な作業で冗長性の復旧が達成され、最も確実性な復旧が期待でき、しかも運用を工夫すれば同期に関する問題発生も最小で済みます。ディスクが廉価になっており、しかもSAS接続により多数のディスクを一挙に取り扱えるようになった現在、RAID10の導入の障害となる要素は解消されました。HPCテクノロジーズではRAID10でしかファイルサーバの構築を行っていません。
◆ 複数のRAIDアレイでのホットスワップディスクの共有ができること (ホットスワップディスク数の最小化)
◎ ご提案のシステムは、DPe1000ディスクエンクロージャが3台までカスケード接続でき合計45基のディスクを論理的に単一グループとして取り扱えます。この45基のディスクを用いて複数のRAIDボリュームを作成でき、この複数のRAIDボリューム群に対して、一括で共有スペアディスク群を定義することができます。そのため、RAID10ボリュームを取り扱いやすいサイズに複数実装した場合でも、少なめスペアディスクを搭載し経済的に運用することが可能です。これは運用上、非常に使い易い機能です。無理をして2TBを越える大容量ボリュームを作成する必要がありません。枯れた2TB以下のボリューム運用でも不都合ありません。
◆ ハードディスク障害時のRAIDのリビルドやディスク交換はサーバを無停止でできること
◎ ご提案するDPe1950サーバとDPm1000ディスクエンクロージャはディスクのホットスペアが可能です。さらにディスクのみならず電源やファンなどの故障が心配される部品はホットスワップが可能となっており、無停止での交換が可能です。
◆ サーバが故障した場合に、当日の迅速な障害対応ができること
◎ HPCテクノロジーズのファイルサーバには当日4時間の3年間のオンサイト保守サービスを標準でつけています。もちろん障害の一次受け付けは弊社が行いますから、お客様には安心して頂くことができます。
◆ システムのサポート期間は3〜5年間が必須 (経時変化を考慮すると1年間保守は短すぎる)
◎ 標準は3年間の無償オンサイトなので安心して利用していただけます。さらに、オプションで最長5年間までの保守期間の延長ができます。もし3年後にシステムを更新されたとしても、その際に旧システムが2年間は予備的に動作しておれば、運用のマージンは大きく広がり、リスク分散にもなります。
◆ 障害対応はオンサイトサポートで行うこと
◎ 高い可用性が必須要件となる最近のHPCクラスタでは、オンサイトサポートは必須要件です。オンサイトサービスを行うことで、お忙しいお客様による、機器の取り外し、梱包、センドバック、受け取り、組み込みなどの一連のお手間は不要となります。また、場所を取る梱包箱の保管なども必要がなくなります。ましてファイルサーバでは運用想定期間中の当日オンサイト保守は必須のサービスです。
◆ 修理用の部品をサポート期間中は保管していること
◎ 信頼性の高いサーバでは所定のサポート費用で無理なくサポート部品をサポート期間中も保管し、安定して提供することが可能です。HPCテクノロジーズが基本コンポーネントとしてデル製のサーバやワークステーションを採用している理由として、強い目的意識で整理された製品体系を形成し、サポート品質と修理部品の長期間に亘る供給管理までがデザインされていることが挙げられます。多少のコストアップになりますが、その投資で得られる長期間の安定運用という果実は余りあるものです。
以上のようなご提案を行いましたところ、お客様は我々の提案を評価して頂き、データベースサーバを導入していただくことができました。また、既存システムからのリプレースも多少お手伝いさせていただくことになりました。既に稼働中の公開データベースサーバからの移行となるため、データや環境の移行が含まれており、導入は半年ほどの期間をかけ慎重に3期で実施されました。一挙に導入してしまうと、万一の場合に軌道修正が難しいですが、必要な機能ごとに段階を踏んでシステムを完成してゆくことで微調整が可能です。
● 1期目の導入 (公開用サーバの導入)
最初の導入では、データベースサーバとしてDPe1950 1台と、外付けのディスクエンクロージャDPm1000 2台の導入が行われました。このシステムに旧システムからの管理ソフトとデータが移され運用されてゆきます。
サーバシステム: DPe1950FS (1台)
プロセッサ: Dual-Core Xeon 1.6GHz 1CPU 2コア
メモリ: 8GB
システムディスク 250GB (RAID1)
RAIDコントローラ: PERC5e SASポート2ポート (3.0Gbps x4 + 3.0Gbps x4)
(管理可能ディスクエンクロージャ総数: 6台、管理可能ディスク総数: 95基 (15x3x2))
サイズ: 1U、サポート:
当日対応
ディスクエンクロージャ: DPm1000 (2台で15TB )
搭載ディスク: 7.5TB (500GB x15)
RAIDコントローラとの接続: SAS 12Gbpsマルチレーンケーブル
サイズ: 1U、サポート:
当日対応
(最大搭載可能ディスク数: 15基)
(最大カスケード接続可能台数: 3台)
● 2期目の導入 (待機用サーバの導入とシステムの組み換え)
1期目の導入が成功したので次の導入を検討されました。今回は、データベースサーバのバックアップサーバとしてDPe1950 1台を納入し、ディスクの再配分を行うというものです。下記のようなシステムの提案を行いました。
サーバシステム: DPe1950FS (1台)
プロセッサ: Dual-Core Xeon 1.6GHz 1CPU 2コア
メモリ: 8GB
システムディスク 250GB (RAID1)
RAIDコントローラ: PERC5e SASポート2ポート (3.0Gbps x4 + 3.0Gbps x4)
サイズ: 1U、サポート:
当日対応
(管理可能ディスクエンクロージャ総数: 6台、管理可能ディスク総数: 95基 (15x3x2))
● 3期目の導入 (ディスクエンクロージャの追加)
待機系のサーバの導入と運用開始も成功したのを受けて、新たにディスク容量の追加を検討されました。外付けのディスクエンクロージャDPm1000 3台を追加導入しました。さらにこれまで導入したディスクエンクロージャDPm1000 2台との間でデータの再配分を行いました。
ディスクエンクロージャ: DPm1000 (3台で30TB )
搭載ディスク: 30TB (500GBx15 + 750x15x2)
RAIDコントローラとの接続: SAS 12Gbpsマルチレーンケーブル
サイズ: 1U、サポート:
当日対応
現時点の構成は運用データベースサーバは実効容量1.5TBのRAID10アレイが7ボリューム実装されており、実効容量は10.5TBに達しています。待機用サーバもこれに近い構成でホットスタンバイしております。
お客様のご感想をまとめてみます。
● ディスクエンクロージャとサーバとがSAS接続されていることのメリットの大きさを高く評価
複数のディスクエンクロージャのディスクを論理的に跨いで45基のディスクドライブが論理的に一括して取り扱える点が素晴らしいとのことでした。さらに、複数のRAIDアレイ群が複数のスペアディスク群を共有できるので、RAIDボリュームの構成が設計しやすいく、システムディスクを有効活用できる点が使い易い。ディスク増設の際も、追加するディスクエンクロージャを、既設のディスクエンクロージャにカスケード接続して増設ができ、これまでのディスクグループにディスクが追加されて認識するので、追加がし易いとも仰られていました。
● 今後の拡張について
現在はストレージ容量が20TB (10TBx2) に増えたことで容量に余裕がうまれ、既存のストレージからのデータと運用システムの移行をれています。このデータ移行や運用の切り替えが終了した段階で、旧システムの運用は停止されるとのことでした。ご導入運用から3年以上が経過した既存システムは安定性や信頼性が劣るようになっているのが引退の理由だとのことです。今後も、データ容量は増え続けるため、今後も増設は検討されているとのことでした。