x月3日 06:15 にRAID10で構成されたRAIDアレイが「degraid」したことを、システムにインストールされている障害検出アプリケーション 「ストレージチェッカー」 が障害発生として自動検出し、弊社の保守サービスアカウントにメールで通知してきました。
x月3日 09:10 弊社の保守サービス・スタッフがお客様に対して、ストレージに障害が発生した旨を連絡しました。具体的には、弊社の保守サービススタッフはお客様に対して、ストレージチェッカーのメールの内容から下記の内容を確認し、その内容をこの時点で全てご報告しました。
◇ RAIDアレイの障害箇所、Failしたディスクのポート番号、エンクロージャーの確認を全て行った。
◇ ホットスペアディスクがRAIDアレイに自動的に取り込まれ、リビルドが開始されていることを確認。
この報告の時点で、お客様からは修理作業は平日ならばいつ訪問しても構わない旨の承諾を頂きました。さらに、弊社の保守サービススタッフからお客様へ次のことを報告し、応急作業をお願いしました。
◇ RAIDアレイへのアクセスが可能であること
◇ 念のため障害ボリュームのデータバックアップを取得してもらうことを依頼
弊社は障害の詳細な状況をデルサポートに連絡し、修理交換部品の用意と、修理作業員のアサインを指示しました。また、修理作業を行う訪問先と都合の良い時間などもデルサポートのスタッフに連絡しました。
デルサポートのスタッフから、お客様と訪問時間のアポイントが取れ、翌日に修理作業員が交換品を持ってユーザーサイトをご訪問し、修理作業を行うことの報告が弊社にも入りました。
弊社の保守サービススタッフからお客様に、デルサポートの修理作業員がアサインされ、翌日にご訪問し修理作業を行いたいと連絡しました。また作業開始時間に関しては修理作業員から直接にお客様に連絡が入る旨を連絡し、承認を頂きました。さらに、修理作業を行うためのコンソールなどを貸していただけるようにお願いをしました。
また、修理作業としては、ホットスペアでのディスク交換が可能であり、RAIDアレイのリビルドも正常に終了していることも確認しているため、サーバーは稼動したままで作業を進めさせて頂く事もご連絡しました。
ストレージは非常に大規模なものですが、その内部は多数の2TB以下のRAID10のボリュームに分割されて運用されています。そのため、ディスクの障害が引き金となって障害がシステム全体に大きく波及することはありません。今回の障害は、ディスク障害発生と同時にスペアディスクを自動的に取り込んでのRAIDアレイのリビルドがスタートし、数時間で正常に冗長性が復活し正常終了しました。そのため、修理作業はRAIDから切り離されている故障ディスクを新しいものに交換する作業となります。
翌日の午前中にはデルサポートの作業員が修理交換作業を開始しました。そしてお昼前には作業が終了しました。行ったのは以下の作業です。
◇ failしたディスク取り出し、新しいディスクを取り付け、ホットスペアの設定を行い、稼動を確認した。
デルサービスは全国各地にサービス拠点を持つオンサイト保守サービスの専門組織です。この全国のサービス拠点には修理に必要な部品が用意されており、迅速な対応が可能です。さらに、修理部品の一時的な欠品に対応するための修理部品用の物流拠点も整備されており、修理部品が必要な現場に迅速な配達が行われます。
お客様からは、障害発生を確認した時点で早急に連絡が弊社からあったことと、修理交換作業の手配を迅速に行ったこと、修理交換に必要な準備などの情報をお伝えしたこと、修理完了までのサーバーの取り扱いに関して適切にお伝えしたことなど、障害は困るが、その対応の手際は良かったと評価していただけました。
今回の障害で確認できたことは以下のことです。
RAID障害の発生をストレージチェッカーが検知し障害通知を行ったこと。
障害通知をもとに弊社のサポートスタッフが迅速にエンドユーザー様への連絡を行ったこと。
お客様に修理完了までの要点を的確にお伝えできたこと。
修理用部品が障害発生日に準備ができたこと。
障害の翌日に修理作業員がアサインできたこと。
翌日の午前に修理作業員が到着しオンサイトにて修理交換作業が完了したこと。
修理を行うに当たり、弊社の保守サービススタッフが必要な情報をお客様と修理作業員の両方に的確に提供できたこと。
今回はストレージチェッカーの障害通知機能に助けられて迅速な対応ができました。しかしこれは、メールを送信できるネットワーク環境に限られることをご理解ください。
ストレージチェッカーからメールが外部に後れない場合には、お客様からの障害報告がサポートの開始となります。お客様から、障害発生のご連絡を頂いた場合には、障害内容の確認後に常用の対応を行い、修理対応を迅速に行います。