長期間安定稼動し続ける高品質なHPCサーバはユーザからも信用され、重要な計算が集中するようになります。その結果、さらに高い信頼性が求められることになります。ところが、安定したシステムであっても、ハードディスク故障の可能性は、減ったわけではありません。ハードディスクは回転部品を使っているため、常に故障の可能性が残り続けます。
さて、もしシステムディスクが故障するとどうなるのでしょうか。システムが停止し、場合によっては大切なデータを失ってしまうかもしれません。それらの対策や応急処置をしながら、とりあえずオンサイトでのディスク交換までが終わったとしても、それだけでは利用を再開することはできません。OSの再セットアップ、各種設定の再設定、ライセンスファイル類やソフトウェア類の再インストールなど、システムディスクの復旧には相当の労力と時間を費やします。システムディスクが故障すると、その被害は大きく広がる場合もあり、システムディスクの耐久性向上は優先順位の高い課題です。
すこし余談になりますが、システムディスクなどにRAID0を採用した構成のHPCサーバを見かけることがあります。これは非常に危険な構成です。RAID0では、それを構成するドライブの一箇所にでも障害を起こすと、一瞬にして全データが消失する事態に至ります。しかも、RAID0の障害発生率は構成するハードディスクの本数に比例します。RAID0のシステムディスクへの利用は非常に危険です。RAID0は一時的に高速なI/Oを必要とするスクラッチディスクなど、用途を限定して利用すべきです。システムディスクは堅牢な構成で搭載すべきです。
ファイルサーバのシステムディスクを考えてみます。HPCクラスタでは、ファイルサーバの停止はクラスタ全体の停止に直結するのみならず、クラスタに大きなダメージを与えます。ところがファイルサーバでもシステムディスクに関しては、その冗長化は普及しておらず、ここがアキレス腱となります。システムディスクが障害を起こすとファイルサーバは停止を余儀なくされます。この停止がハードランディングの様相を呈すると、HPCクラスタ全体にまで大きなダメージを与えてしまう可能性が高まります。ファイルサーバのシステムディスク障害の影響は大きく危険です。
HPCクラスタの管理ノードのシステムディスクを考えてみます。小規模のHPCクラスタで利用される管理ノードは、ファイルサーバ機能とアプリケーションサーバ機能の双方が搭載されているのみならず、クラスタ全体の各種設定情報も置かれるなど、文字通り管理の中枢を担っています。これらの中枢機能を構成するデータ類は、管理ノードのシステムディスクに保存されているか、システムディスクに依存して動作しています。管理ノードのシステムディスクこそHPCクラスタの礎石のような存在なのです。管理ノードのシステムディスク障害の影響はさらに大きく危険です。
このように、ファイルサーバや管理ノードに搭載されているシステムディスクの責任は重く、高い耐障害性と可用性が求められます。そこで弊社のファイルサーバProFileServerシリーズでは、システムディスクにRAID1を採用しています。RAID1なら、万一ハードディスクに障害が発生しても、システムを停止させることなく運用を継続できます。また、オンサイト修理サービスによるディスク交換も、システムを停止させることなくホットスワップで作業できます。そして、RAIDコントローラによる修復動作の終了後は通常運転に復帰します。当然、OSの再セットアップなどの煩雑な作業は不必要です。そこで、ファイルサーバや管理ノードに搭載するシステムディスクは、ホットスワップが可能なRAID1での構成を推奨します。
弊社のHPCサーバ/ワークステーションであるProServerシリーズでは、システムディスクは全て二重化されています。この二重化されたディスクは、RAID1によるミラーではなく、データバックアップによるデータ複写により大切なデータを保護する仕組みをとっています。バックアップは、工場出荷時と設置作業時に行い、OS類をシステムディスクからバックアップディスクへと複写します。このように、システムディスクをバックアップしておくことで、仮にシステムディスクに障害が発生しても、簡単な操作でバックアップディスクから再起動でき、もし必要ならばそのままバックアップディスクによる仮運用を継続することもできます。これは、OS、ライセンスファイル類、ソフトウェア類、諸設定ファイル類などが、そのまま利用できる状態でバックアップディスクに複写されているからです。さて、オンサイト修理サービスによるディスク交換は、故障しているノードを停止させて行います。その時にバックアップ作業などを行い、復旧が完了完了します。RAID1より低価格なぶん、手動作業がありノード停止も発生するため、演算ノード側で主に利用されます。しかし、8CPUコア級のSMP機の普及によりノード数の集約が進むため、運用形態によっては演算ノード側のディスクであっても高信頼性や無停止性に対する要求が高まります。その場合にはSASドライブの採用やRAID1の搭載も視野に入ってきます。
バックアップツールはインストール済み
システムディスクが二重化されている場合では、バックアップツールはインストール済です。お客様が必要に応じて簡単にバックアップツールを用いてバックアップ作業が行えるようにしています。これは、計算機システムを導入後にアプリケーションのインストールや、設定変更を行われた場合でも、お客様の手によりバックアップデータの更新を容易に行えるようにするためです。
バックアップツールの実行
バックアップツールは実行スクリプトになっております。スクリプトの実行方法は製品添付ドキュメントに記載しています。お客様にて必要に応じてバックアップの実行を行って頂くか、もしくはcronにより定期的にバックアップを行う設定を行うことも可能です。ただし、バックアップはシステムに負荷をかけるので、cronによって定期的に行うよりはアプリケーションをインストールした際などの必要なときに行って頂くことを推奨しております。
2種類のバックアップツールをご用意
システムには2種類のバックアップツールがインストールされています。1種類目は既にバックアップ済みのバックアップデータの差分バックアップの更新を行うツールです。2種類目はバックアップディスクにフルバックアップを行うツールです、主にハードディスク故障による交換後の新しいハードディスクに対して行うためのものです。これらを用いて可用性の高いシステムの運用を実現いたします。