お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

基礎情報

計算機本体

ストレージ

ネットワーク

OS環境

開発環境

ジョブ管理

システム管理

設置環境


プロセッサ番号一覧へ

Linpack HPL定点観測テストへ

RAID5の運用

RAID5運用の要点はバックアップの準備と、慎重な運転の実施

小さな容量のロスで、ストレージを冗長化するRAID5

以前のハードディスクの課題とされていたことは、高価なこと、壊れ易いこと、容量が小さいことなどでした。RAID5はディスクの容量を少し犠牲にするだけで、冗長化による信頼性の向上と、ストライプによるディスクの大容量化と高速化を一挙に実現し、ディスクに求められていた課題の多くを解決したため広く普及しました。しかしRAID5は万能ではありません。効率の良さには影の部分もあります。RAID5はその長所と短所を的確に理解したうえでの利用が求められるます。

RAID5のおさらい

最初にRAID5のおさらいをします。RAID5はRAID0にパリティーデータを追加し冗長性を持たせたRAIDポリシーです。データを書き込む際にパリティーデータを追加しているため、1個のディスクに障害が発生しても元のデータを復元できることが長所です。ここで大切なポイントとしてRAID5は、この状態では冗長性が失われています。そのため、RAIDを復旧する前に、新たなディスクに障害が発生するとRAIDアレイ全体のデータが消えることになります。RAID5の運用ではこのポイントの対処が最も重要です。

RAID5の利用で大切なことは、無停止運用を避けること

RAID5の利用で注意していただきたいこととして、無停止運用が必要な使い方を避けることが挙げられます。もしRAID5のディスクに障害が発生したら、すぐに通常の運用を停止し、確実な復旧に向けての準備作業を行う必要があります。まだ動いているからといって、使い続けることは危険です。

RAID5でディスクに障害が発生したら、クラスタを安全に停止する

HPCクラスタのファイルサーバは、クラスタ全体に多くのサービスを提供しています。そのためファイルサーバが突然停止するとクラスタ全体がパニックを起こし危険な状態に陥ります。そのため、ファイルサーバが停止してしまう前にクラスタを停止させなければなりません。ファイルサーバにRAID5が採用されていると、ディスクに障害が発生しても運用が継続できるため、この猶予を活かしてクラスタを正常に停止させ、トラブルを回避することができます。

RAID5ならディスクに障害が発生しても、バックアップを準備することができる

HPCクラスタのファイルサーバには貴重なファイルが保存されています。これらのファイルを定期的にバックアップされていたとしても、ファイルサーバがクラッシュすると、最後のバックアップ以降のデータは失われます。そこでRAID5のディスクに障害が発生するとバックアップデータの同期を取ることが必要です。また、バックアップデータが正常に動かないトラブルもありますから、その確認作業も大切です。さらに、バツクアップを取られていないのでしたら、至急バックアップを行う必要があります。ファイルサーバにRAID5を採用していると、ディスクに障害が発生しても運用を継続でき、この猶予を活かしてバックアップデータの準備をすることができます。

RAID5のリビルト作業では、バックアップの準備が命綱

RAID5では、リビルト作業に失敗すると全てのデータが失われます。そのため、RAID5のリビルト作業ではバックアップの準備が命綱です。作業開始前には必ずバックアップの確認をお願いします。この危険性は、ストレージ容量が大きければ大きいほど、ディスク本数が多ければ多いほど、システムが古ければ古いほど高くなります。RAID5のリビルト作業は、冗長性が失われた状態でRAIDアレイ全体を読み書きするため、隠れていたディスクの障害に遭遇する危険があります。もしそうなると全データが消失してしまいます。

RAID5の運用では、ディスク障害の早期発見が大切

これまでお伝えしたようにRAID5では、ディスクに障害が発生した直後からの迅速な対応が大切です。もしディスクの障害に気が付かずに利用し続けると次のディスク障害で、全データの消失や、突発的なシステムの停止が起こってしまいます。これは、お休みの期間とか隠れた場所に設置された場合に起こりがちです。これを防ぐためには障害通知機能を活用され、ディスク障害の早期発見ができるようにされることをお勧めします。

RAID5の自動リビルドの持つリスクのご説明

RAID5は自動リビルトができますが、この設定はリスクの高い設定です。ホットスペアディスクによる自動リビルトを設定しておくと、ディスクの障害が検出されると自動的にホットスペアディスクがRAID5に組み込まれリビルト作業が開始されます。リビルトが完了するとRAID5の冗長性は復活し、障害が発生したディスクはRAID5から切り離され交換されるのを待っています。この機能は便利そうに思えますが、実はリスクの高い設定ですからご注意をお願いします。

【自動リビルトのリスク1 - バックアップ】 自動リビルトを行うと、リビルドを開始する直前にバックアップの同期を取れません。そのためもし万一、リビルド中に次のディスクに障害が発生すると最後のバックアップ以降のデータは失われます。またもし、バックアップを取られていない場合は、バックアップ無しでリビルドが行われることになります。

【自動リビルトのリスク2 - 過大な負荷】 HPCクラスタは自動連続運転されるため、ファイルサーバにも連続負荷がかかります。もし、ここで自動リビルドが開始されても、HPCクラスタへ通知されなければファイルサーバへの連続負荷は止まりません。その結果、ファイルサーバは自動リビルドの負荷と、通常の負荷の双方が集中する高負荷の状態になります。高負荷状態では小さな障害が連鎖反応を起こすことがありますから危険です。

このように、便利そうなRAID5の自動リビルトには、リスクが潜んでいることのご理解をお願いします。

RAID6のメリット

このようなRAID5の短所が明らかになってきたため、それを改善する技術としてRAID6が登場しました。RAID6はRAID5の短所である、ディスクに障害が発生すると冗長性が失われるという点が改善されています。RAID6はパリティーを2重に持っているため、ディスクに障害が発生しても冗長性が残っています。そのため、ディスク障害の修復を行っている際にも冗長性が残っており安全です。RAID6は修復作業をより安全に行えるようにする技術です。

RAID6が役立つ場合

ではより具体的に、RAID6が活躍する場面を考えてみます。典型例としては、ディスク障害を復旧するリビルド作業中に新たなディスク障害が発生しても、2重化パリティーを使うことでデータが守られ修復が完了するケースです。このケースではRAID6の役割が光ります。しかしこのシステムは、ほぼ同時に2個のディスクが障害を発生させているわけですから、システムには別の問題が潜んでいる可能性があり、詳しく調査する必要があります。その際には、RAID6もパリティー計算により冗長性を確保しているため、同じ原理を利用しているRAID5の短所が解消されていないことは意識されている必要があります。

バックアップの実際

RAID5やRAID6ではバックアップは必須です。HPC分野で行われる一般的なバックアップの方法は、同じようなディスクアレイを2セット利用した定期差分バックアップが多用されます。その際には、RAIDアレイのボリュームサイズはあまり大きくしない方が、軽快に取り扱うことができ安全です。サイズの目安としては2TB程度とし、大きな容量が必要な場合には複数のボリュームに分割して運用します。また、フルバックアップが困難な場合には、バックアップするボリュームと、バックアップしないボリュームを区別しての運用となります。

HPC分野で求められる高機能RAID

HPCクラスタの無停止運用が増え取り扱われるデータ量も急増しているため、接続されるファイルサーバにも、無停止運用の実現、信頼性の向上、大容量の実現、コストパフォーマンスの向上などが強く求められています。しかし残念なことに、RAID5やRAID6ではこれらを実現することは困難です。そこで、これらのRAIDポリシーに代わる高機能なRAIDが求められています。

ディスク容量の巨大化による、RAID5のメリットが低下

また、最近ではディスク容量が巨大化してきたため、RAID5のメリットが消失する場合もあります。上に書きましたように、実際の運用では2TB程度のボリュームサイズが使い易いです。ところが最近のディスクは容量の巨大化が進み、1TBのディスクが市販されるようになりました。この1TBディスクを用いて2TBのRAID5ボリュームとスペアディスクを構成しようとすると4個のディスクが必要です。でも、1TBのディスクが4個あるなら、RAID5より、RAID10を構成してしまった方が良いです。さらにディスクをもう1本追加することが許されるのなら、RAID10+ホットスペアディスクの構成が実現できます。

RAID10+ホットスペアディスク構成

RAID10+ホットスペアディスクの長所を理解していただくためには、その信頼性の基礎である「RAID1+ホットスペアディスク」という構成を理解していただくことが近道です。

RAID1+ホットスペアディスクの仕組

RAID1にデータを書き込むと、両方のディスクに同時にデータが書き込まれ、リアルタイムにバックアップが取られている状態になります。そのため、片方のディスクに障害が起こっても他方のディスクがあるため、なんら変わることなく運用を継続できます。そして自動リビルトは、生きている側のディスクからホットスペアディスクへ、RAIDコントローラがビットデータを一括コピーする単純な作業なので安心です。さらにこの作業時間は長くても2〜3時間と速度の速さも大きなアドバンテージです。

(実際の保守作業では急いでも、障害通知を受けてからログの確認や管理ツールでの状況確認作業までに1〜2時間は掛かることがことが多いですから、オンサイト保守の手配を行う頃には「RAID10+ホットスペアディス」の場合はリビルドが完了している場合が普通です。)