お客様は大学の研究者の方で経済を研究されています。研究では膨大な計算を行われるためラックマウントされたHPCクラスタをお持ちで、これをお一人で利用されています。このHPCクラスタには計算で使用する800万個を超える膨大なファイル数のデータを蓄積するためのファイルサーバが実装されています。このファイルサーバは2台のファイルサーバで冗長化され、運用とバックアップ用の2重化構造になっています。今回の導入事例ご紹介では、このファイルサーバ更新の事例をご紹介させていただきます。
この仕事を頂戴したきっかけは、お客様が弊社より新しくワークステーション (8コア搭載) を導入され、そのマシンのセットアップのため弊社のフィールドスタッフがオンサイトで作業をしていた際にお客様から、「現在のHPCクラスタの運用や機器の追加、入れ替えなどについて少し相談にのってほしい。」と声をかけていただいたことに始まります。
>>参考 rsyncによるファイルサーバのバックアップ (600GB/600万ファイルを4時間で実現)
お客様によると、現在ご利用のファイルサーバに蓄積しているデータの容量は300GB程度と少なめですが、そのファイル数は800万個以上と膨大な数に上るそうです。これは大切なデータなので、もう1台バックアップ用のサーバも運用されており、定期的に「rsync」コマンドでバックアップする仕組みを導入されているとのことでした。ところがファイル数が多いため rsyncでバックアップする際のサーバ負荷が高く、処理時間も非常に長くかかるようになってしまったとのことです。そのため最近では、バックアップ作業を定期的に行うことすら難しくなってしまい、お困りになっておられるそうです。さらに、現在のHPCクラスタは一年間の保守契約であったため、保守契約が終了した後は、故障のたびに修理費が請求されるようになったそうです。ところが余分な修理費は予算化していないためその出費にもお困りとのことでした。そこで、これらの課題を根本的に解決するためにはファイルサーバを新規に買い換えた方が早そうだし、総合的なコストでも釣り合いそうだとお考えになっておられるようでした。
ご相談を受けた弊社のフィールドスタッフは、実際のファイルサーバを見せていただき、実際の800万個を超えるファイル数とデータサイズからバックアップ処理を実行するサーバに必要なメモリサイズの目安やサーバの性能などをお伝えしました。さらに、弊社のファイルサーバなら標準で3年間の当日/翌日オンサイト保守と修理パーツ保証が付いていることをお伝えしました。するとお客様から、さらに具体的な提案をして欲しいということで、より詳細なご要望を伺いました。
お客様の具体的なご要望を下記にまとめました。
・ 基本的に故障は困るので高品質なファイルサーバが必要
・ 途中で修理費用が発生しない長期の無償保守が含まれるファイルサーバであること
・ 修理作業は当日/翌日のオンサイト作業で行われること
・ 既存のファイルサーバからのデータ移動と新サーバへの運用の切り替を作業をオンサイトで実施すること
・ 電源の冗長化やスペアディスクの搭載などの可用性を高める仕組みも必要
・ 発生する膨大なデータを迅速にバックアップするために充分なハードウェア仕様を提案すること
・ バックアップ時間も高速化すること (CPUの高速化、システムの改善)
・ 万一運用側のファイルサーバが重い障害で運用停止しても、バックアップ機を運用に回す対応をサポートできること
・ 今後のHPCクラスタの導入や入れ替え、運用などで技術的な相談ができるHPC技術に詳しいベンダーであること
・ 既存機器のリプレースでは、ラッキング作業にも詳しいこと
ファイルサーバに関しては、高い開発力と生産管理力を持つ大手メーカーの量産製品に勝るものはありません。世界中の大手の企業や機関で広く利用され改善の実績を積み重ねているからです。さらに個々の部品の品質管理のみならず、システム全体の設計から保守サービスの先端にまで意識が行き届き、バリデーションも徹底しています。さらに、運用面でもサーバからRAIDコントローラ、ディスクエンクロージャ、ディスクドライブまで、ファイルサーバ全体を統合的管理できるシステム管理ツールを搭載しています。このツールも世界中の運用現場で使い込まれた高い実績を誇るツールです。大手メーカーの量産製品は確かに良いです。
ところが、HPC分野での専門的なサービスとなると、これは小さな企業の得意とするところです。大手では真似の出来ない細かなサービスを比較的低価格で実現できます。そこで弊社では、DELLという世界でもトップクラスのハードウェアベンダーの製品をコアコンポーネントに採用し、その長所をフルに活かしながら、専門的なサービスやサポートに関しては、小回りの利く専門企業の強みを活かして弊社が責任を持ってサービスを行う分担体制を取り、お客様にはこれまでになかった利用価値をご提供いたします。
お客様のご要望に対して下記の構成をご提案しました。
・
ファイルサーバ (メイン)
DPe2950FS RAID10: 1TB
(500GB x5) メモリ: 2GB 冗長化電源 Dual-Core Xeon x1
・ ファイルサーバ (バックアップ)
DPe2950FS RAID10: 1TB
(500GB x5) メモリ: 16GB 冗長化電源 Dual-Core Xeon x1
・ 既設のUPS (1500VA) に接続
・ 3年間の当日オンサイト保守 (当日4時間)
・ 3年間の弊社の技術サポート (翌日)
ご提案した機器の特徴を以下に記載します。
・ 高品質な大手メーカー製で実績のサーバ機を採用
・ 実績のあるRAIDカードを搭載
・ 迅速な復旧を考えRAID10を採用し、スペアディスクも搭載
・ ストレージ容量は現在の使用量が300GB程度なので1TBとする
・ 2Uサーバを2台用いて2重化構成
・ 計4Uサイズとコンパクトなので今後の拡張スペースも確保できる
・ 現在のファイル数も膨大でさらに増加するためバックアップサーバには約10GBのメモリが必要と算出され、16GBのメモリを搭載
・ バックアップ処理はCPU負荷が高く時間もかかるので、処理はバックアップサーバ側で実行する
・ バックアップの高速化を目指し、ハード的にもソフト的にもシステムの見直しを行い、最適な設定を行う
・ 管理サーバのネットワークポートを用途別に複数用いる
(・ UPSに接続し停電時には安全にシャットダウンできる)
・ 障害通知ツールを持ち、弊社とデルサポートが連動して保守にあたる
・ 障害の対応の監督は弊社が責任を持って実施する
・ 万一運用ファイルサーバが重い障害で運用停止しても、バックアップ機を運用に回す対応をサポートを行える
・ 3年間の当日/翌日オンサイト保守とする
・ 当日/翌日オンサイト保守は最長5年間まで期間途中での期間延長契約が可能で、計画的予算配分ができる
さらに、お客様と今後の運用や機器構成のご相談を行いながら、実際のオンサイト作業による既存機器からのデータ転送や運用開始までの導入スケジュールを作成し、お客様にご提案しました。
お客様は弊社の提案に対して、提案の内容に相違なく、オンサイトでの導入支援により運用開始までフォローしてくれるのなら、発注をしたいとのご返事をいただきましたので、重ねてご発注をお願いしました。
お客様よりご発注していただき、すぐにメーカーの工場に発注したサーバは納期どおり弊社工場に入荷しました。お客様からは設定に関する情報を頂いているので、それに従い、OSインストールと設定、RAIDの構築、バツクアップの動作確認までの作業を済ませ、ファイルサーバとしての長期間エージングを実施し、RAIDのパフォーマンスの確認も行いました。最後に初期不良箇所の検査を行うと社内での作業は完了となります。
完成したサーバをお客様のサイトに輸送し、以下のようなオンサイト作業を行いました。この作業では800万個を超えるファイルのコピーに時間がかかるためオンサイト作業は2回に分け、その間はリモートからの作業を行いました。
作業1日目の内容
・ 機器のラックへの組み付け
・ 機器の動作確認と点検
・ 不具合箇所の修理と確認
・ 旧サーバから新サーバへのデータのコピー
・ 新サーバ間のデータコピー
リモート作業
・ データコピーの状況確認
作業2日目の内容
・ 運用開始直前の最終データ同期
・ 設定の変更
・ 運用開始
・ 障害監視ツールの設定と動作確認
・ UPSへの接続と最終調整
・ あと片付け
オンサイトでの組み付け後に電源投入すると、機器の動作確認を行い最終的な不具合箇所の確認を行います。ここで発見された不具合は、デルサポートと協力して迅速に改修が行われます。その間にも弊社のフィールドスタッフはシステムの組み付けやオンサイトでの設定作業などを行い、システムの接続準備を進めます。全ての準備が完了すると運用開始に向けてのソフト的な作業を行いました。
システムの最大のボトルネックはバックアップ処理時に発生します。すなわち、通常のファイルサーバの動作にバックアップ動作が追加されるからです。しかもバックアップとは、前回のバックアップ以降のに更新されたファイル全ての読み出しが短時間に行われますから、圧倒的に負荷が高くなるわけです。従って、バックアップ処理の高速化は、システム全体の高速化に直結します。チューニングの指標としても実践的に優れています。このシステムではバックアップサーバ側にバックアップ処理を割り当てることで、運用側のサーバの負荷を軽減させる構造を採用しました。これは優れた手法です。
・ バックアップ処理をバックアップ側のサーバで実施
・ サーバ本体の見直し (CPU、HDD、チップセット、メモリ)
・ ネットワーク構成の見直し
・ RAIDコントローラの見直し
・ OSカーネルの見直し
・ ファイルシステムの見直し
・ rsyncの見直し
・ NFSの見直し
これらを一から見直してシステムをチューニングしてゆくなかで、良い設定の組み合わせがみつかりました。懸案であったバックアップ時間の短縮はもとより、NFSの速度も速くすることができました。オンサイト作業ではこれらも反映した設定を行いました。特にバックアップ時間の短縮に関しては目覚しい改善がなされました。
ファイルサーバを利用する時の保守契約として、センドバック保守や、時間指定無しのオンサイト保守、1年間程度の短期保守、曖昧な修理部品保証などでは不十分です。導入して2年や3年が経ち貴重なファイルが沢山蓄積された状態での障害で、突然の追加費用が請求されても、予算に余裕がなければ大変困ります。そのため、運用期間中の当日/翌日オンサイト保守契約と部品保証、技術保証は必須です。
弊社のファイルサーバは運用予定期間を通じての安定利用を前提とした保守を迅速に無償で実現することを念頭に考えています。具体的には、RAID10 + スペアディスク構成を標準とし、ディスク故障時には即座にスペアディスクで短時間に冗長性が復活し、障害通知メールによる障害箇所の把握、技術に精通した弊社の技術スタッフによる故障箇所の診断と対策の立案、デルサポートと連携を取っての障害箇所の修理、運用再開までの技術支援、などを一貫して実施します。
あたりまえのことですが、保守契約期間中の費用負担はゼロになります。初期導入費用に、3年間の当日/翌日のオンサイト「W保守サービス」が含まれているので、運用予定期間を通しての安心は、システム導入に際しては大きな魅力です。