冗長化構成のシステムが普及するにハードウェアが冗長化が進み、多少の障害が起こってもシステムが動き続けるため、その弊害として障害に気付きにくくなっています。そのため、障害に気付かず使い続けてしまったり、修理を先送りしてしまうような事が起こります。そのような例として、ECCメモリの1ビットエラー時の自動修復、冗長化されたファンや電源の障害での片肺運転、冗長化されたディスクでの自動修復後の利用継続などが起こりがちです。しかし、利用継続できるだけで、問題が根治されたわけではありません。障害の原因を残したまま運用を続けると2次障害が発生したり、復旧の困難な重度なトラブルの温床にもなりかねません。
このようなシステムでは、障害の検出、障害の通知、障害原因や障害箇所の特定、修理ナビゲーションなどの機能を備えた管理ツールが必要です。
HPCテクノロジーズのHPC-ProServer製品の多く 『DPe1950、DPe2950、DPe2900など』 はこのような機能を備えた管理ツールを搭載しています。また、サーバの前面にあるLCDパネルによる障害箇所の表示や、LEDによる障害の警告機能も備えています。さらに、遠隔地へも瞬時にメールで障害を通知する機能も搭載されています。
これらのツール群により検出/特定された障害は、当日/翌日にオンサイト訪問で行われる修理対応により迅速に復旧され、お客様のHPCサーバやHPCクラスタの安定稼動を実現することができます。3年間の無償オンサイト保守期間中であれば追加費用の心配も無く、常にベストコンディションでシステムの運用が可能です。また、システム全般の復旧にはHPCテクノロジーズからの復旧支援が強力にバックアップします。
◇ 日本語化されたブラウザベースの総合管理ツール『Dell OpenManage』を搭載
・サーバ全体をリモート監視可能
・障害箇所を詳細に表示
・サーバを停止させずに調査可能
・ディスクのスペア設定やLED点灯などの操作が可能
◇ サーバ障害を通知するLCDパネル
・障害時にオレンジに点灯もしくは点滅
・障害箇所と簡単な内容をLCDメッセージ表示
◇ メールによる障害通知 (ストレージ)
・遠隔地でも障害発生が瞬時にわかる
HPCテクノロジーズのHPC-Proサーバ製品には図のようなWEBブラウザから利用できる統合サーバ管理ツール『Dell OpenManage』を搭載しています。このツールはブラウザベースのため、手元のパソコンからネットワーク経由で利用できます。ブラウザが対応していれば日本語表示しますから判りやすいです。ダイアログボックスも日本語表示で、操作はマウスが使えます。

『Dell OpenManage』は多彩な特徴を誇っています。以下にその特徴を列記します。
◇ ネットワークで通信ができれば遠隔地からでも利用できる
◇ ブラウザを介してステータスやログの確認、操作が可能
◇ ブラウザベースなのでWindows、MacOX、Linuxなどの各種OSのブラウザに対応
◇ 複数言語対応なのでブラウザの設定から自動的に英語や日本語が表示される
◇ サーバー本体とRAIDアレイを1つの管理ツールで一元的に管理でき堅実
◇ RAIDアレイのホットスペアの設定などのメンテナンスを行うことができる
◇ ハードウェアに不具合が生じても、システムを稼動させたまま原因を追及できる
◇ システムの電源操作もOSを介したリモート遠隔操作でシャットダウンができる
◇ ハードウェアエラーが検出されれば、ロギングする
◇ メモリエラーの場合にDIMMのスロット番号まで障害箇所を示してくれる
→ 障害箇所の切り分けが自動的に行われ非常に素晴らしい (特にメモリ障害)
◇ 表示している画面の印刷、電子メール送信などができる
『Dell OpenManage』を用いることでサーバ本体、RAIDコントローラ、ディスクなどの動作状況や障害箇所の調査をシステムを運転した状態でも表示させることができます。
図はシステムログの履歴を表示させた画面です。
◇ シンボルが色分けされていて判りやすい
◇ 診断機能が搭載されており状況が細かく報告されている
◇ 修理箇所が特定される
※図ではメモリの1ビットエラー訂正と、メモリセンサからのDIMM4が危険な状況の警告が表示
◇ 迅速確実な修理ができる

右図は項目選択画面の部分拡大です。例示した画面では外付けディスクエンクロージャの内部に搭載されている物理ディスクのステータス表示となっております。また主要な項目を列記します。
◇マザーボード
・プロセッサ
・メモリ
・ハードディスク
・温度
・電圧
・電源ユニット
・ファン
・BIOS
・ネットワーク
・トップカバーの開閉
・PCI/PCIeスロット
・CMOSバッテリ
・USB/シリアルの全ポート
・BMC (IPMIによるリモートアクセス)
・OS
◇ストレージ
・RAIDコントローラ
・ハードディスク
・RAIDアレイ
・RAIDコントローラのファームウェア
◇DPm1000 (外付けディスクアレイ)
・ファン
・ディスク
・電源ユニット
・温度など (etc)
多くのデバイスを遠隔操作することができます。例えば、RAIDアレイの管理に関してはこの管理ツールから大半の操作を行うことができます。修理作業時にRAIDアレイから切り離された障害ディスクドライブを多数のドライブ群から間違いなく見つける場合などでも、管理ツールからディスクのLEDを点滅させることができますから、ディスクを間違えて交換してしまうような深刻なケアレスミスを予防できます。
障害時こそ管理ツールが最も大切な役割を発揮する時です。だからこそ、管理ツールには日常から使い慣れておき、手に馴染んでいる必要があります。『Dell OpenManage』は使い易いツールなので日常的に使っていても苦になりません。
HPC-Proサーバのハードウェア障害ではフロントLCDパネルがオレンジ色に変化HPCテクノロジーズのHPC-Proサーバ製品の多く (DPe1950、DPe2950、DPe2900など) ではサーバのハードウェアに障害が発生すると筐体前面にあるLCDパネルの色が青からオレンジに変化します。(筐体背面にあるLEDは青色からオレンジ色の点灯もしくは点滅に変化し、背面で作業している場合でもサーバの識別が容易)
オレンジ色に変化したLCDパネルには故障箇所とエラーメッセージが表示されます。外からでも障害を起こした部位とその概要がわかります。左写真はメモリがエラーを起こした際にLCDパネルがオレンジ色に変化し、さらにエラーコードと、エラーを起こしたメモリモジュールが「DIMM4」と表示されています。
◇ 自己診断機能により不具合内容や不具合箇所を表示するので非常に便利
◇ 障害を起こし、交換が必要なデバイス固体まで解析され指定される
市販のパソコンや廉価なサーバなどに搭載されている管理ツールでは、エラーメッセージに詳細な障害情報は含まれません。例えばメモリ障害では『メモリ異常』と表示されれば良いほうで、何番のメモリがどのような異常なのかが判りません。修理するためには修理道具や交換部品などを用意して障害解析する必要があります。しかしこれは時間が掛かる作業のため、オンサイト修理で完了することは難しく持ち帰りになることが通常です。
これに対して優れた管理ツールが搭載されているシステムでは状況が全く異なります。最新のハイエンドサーバは障害の状況を詳細にモニターし障害箇所を解析/特定する仕組みを持っています。管理ツールはこの仕組みと連動し、渡された異常メッセージや障害内容を直ちに適切にユーザや修理担当者に提示してくれます。そのため従来の修理作業で大部分の時間を占めていた障害箇所の特定作業が不必要となりました。ガイダンスに従いオンサイトで部品交換を行うだけで修理が完了できるようになったのです。
◇ 修理箇所が特定される
※図ではメモリの1ビットエラー訂正と、メモリセンサからのDIMM4が危険な状況の警告が表示

LCDの表示は明るいオレンジ色なのでラックに搭載していても良く判ります。右写真では中段のノードのLCDパネルがオレンジ色になっています。前面扉を閉じた状態でもわかります。(写真をクリックすると拡大)
HPCテクノロジーズのファイルサーバ『HPC-ProFileServer』には、管理者へメールで障害通知するツール『StorageChecker』を搭載しています。このツールはディスクに障害が発生すると、登録された管理者へ障害内容をメールで通知するものです。以下にディスクに障害が発生した際の復旧までの手順をご紹介します。
★ディスクに障害発生
◇『StorageChecker』による管理者へメールでの障害通知
◇RAID10での自動リビルト開始
RAID10ドライブの障害が発生すると自動的にリビルドが開始されます。(スペアディスク内蔵の場合)
◇『Dell OpenManage』やLCDで障害箇所の確認
◇自動リビルドの状況確認
障害通知メールを受け取られた管理者の方は、弊社に障害発生の旨の連絡と障害通知メールの転送をお願いいたします。このご連絡を受けて弊社でもログをチェックし状況確認をします。さらに詳細な状況やバックアップの状況などを確認します。
◇ドライブの修理手配
状況確認後、迅速に修理手配を開始します。
◇オンサイト修理実施
弊社より修理指示を受けた各地のサポートセンターではオンサイト部品交換の準備をし、ご訪問予定を調整した後、交換修理にお伺いします。
◇復旧作業
運用の再開まで親身なサポートを実施します。
☆修理完了