HPC-ProUPS AUPS Towe Series
HPC-ProUPS AUPS Rack Series
信頼の常時インバータ方式をラインナップ
同タワー型は1500VA、2400VAをサポート
同ラック型は1500VA、2400VA、5000VAをサポート
普及価格のラインインタラクティブ方式もラインナップ
同タワー型は1500VA、300VAをサポート
同ラック型は1500VA、3000VAをサポート
3年間の製品保証と安心のオンサイト保守を実施
HPCクラスタ全体にUPSを接続しようとすると、UPSの台数が増え大掛かりになります。そのため、本当にミッションクリティカルなシステムを除いては実現が難しいのが実情です。ただし、管理サーバやストレージサーバなどのサーバ類にはUPSの接続は必要です。そこでこの文章では、サーバ類がUPSに接続されていない場合に、停電などの電源障害によりシステムがどのような影響を受けるのかを簡単にご説明し、UPSがあることで安心してシステムを利用していただけることを説明いたします。
UPSの働きを簡単に説明いたします。UPSにはバッテリーが内蔵されており、停電や瞬停が起こると瞬時に電力をバッテリーから供給されるように切り替えることで給電の途絶を防止し、UPSに接続されている電子機器類を停電から守ります。さらに、一定の時間が経過しても供給が復旧しない場合には、計算機に停電していることを示す信号を送り、計算機を安全にシャットダウンさせることができます。
HPCクラスタの計算ノードは全てファイルサーバにNFSマウントし、ファイルサーバからのデータとローカルのデータの双方を用いて計算を実行しています。したがってもしファイルサーバが使えないと、HPCクラスタ全体が機能しなくなります。
UPSを接続してないサーバが停電に遭うと、サーバは瞬時にダウンしてしまいます。すると、サーバがメモリ上で作業していたデータはディスクに書き込まれないまま消えてしまいますから、一貫性が保てないデータが残されることになります。このような問題を引き起こす可能性のある深刻なダメージが加わることで、再起動が正常に行えず停止してしまうことが起こりやすくなります。
ファイルサーバが停電に遭いダウンのタイミングが悪いと、書き込み中のデータが部分的に消失してしまうことが起こります。この場合は次回起動時にはデータが存在しているように見えますが、いざ利用しようとすると、データにアクセスできない障害が発生している場合があります。
このような場合にUPSが接続されていると、計算機の側は停電によりダウンしてしまいますが、ファイルサーバの側はUPSにより動作を継続しています。そしてUPSからの信号を受けて自動的にアンマウントなどのシャットダウン処理を行う場合には応答の無くなった計算機のファイルの処理を適切に行ってから終了します。
ファイルサーバが停電に遭いダウンすると、ファイルシステムが正常にアンマウントされていないため、再起動時にファイルシステムの整合性を保つためにFSCKが自動的に動作します。FSCKが動作することで異常終了したファイルサーバのデータの整合性が保たれるのでこの動作は大切です。しかしその反面、ストレージのサイズが大きくなるとFSCKに費やす時間が非常に長くなります。なぜならFSCKの実行時間はストレージのサイズが大きくなりデータ量やファイル数に正比例して長くなるからです。例えば2TB級のストレージの場合にはFSCKだけで半日程度の時間がかかることも珍しくありません。半日もFSCKが動作していると、その間はサーバーは利用できませんから、計算機システムの利用再開も出来ないことになります。
さらにFSCKは、もし1台のホストに多数のRAIDアレイが接続されている場合には、それらを順番に処理してゆきます。ですから2TB + 2TBならば1日程度は、2TB x4なら2日間ほどもかかってしまう可能性があります。これが個人利用のシステムならまだ我慢もできるかもしれません。しかし、共同利用環境ともなると長時間の運用停止は避けなければなりません。
このような場合にUPSが接続されていると、計算機の側は停電によりダウンしてしまいますが、ファイルサーバの側はUPSにより動作を継続しており、さらにUPSからの信号を受けて自動的にアンマウントなどのシャットダウン処理を行ってから正常終了することができますから、復電後の再起動を正常に行うことができます。
これは経験的なことですが、長期間安定稼動していたファイルサーバであるにもかかわらず、停電などでダウンしてしまうと、再起動で突然問題を起こす場合があります。その際の症状としては、再起動中にシステムが停止する、ディスクからエラーが出る、RAIDアレイがデグレイドするなどです。これは潜在的な問題箇所が正規の処置を施される前に突然ダウンしてしまい取り残され、それが再起動時のチェックで異常個所として認識されたことにより起こってしまう連鎖的な障害の可能性が高いです。
このような場合にUPSが接続されていると、シャットダウン処理を適切に行ってから正常終了することができますから、復電後の再起動で発生する問題の低減に役立ちます。
簡単ですがサーバ類にUPSが接続されることで、システムが正常終了し、トラブルが発生する可能性を低減させられることがご理解していただけたこととおもいます。そのためにもUPSは容量に余裕のあるものを使用して頂きたいと思います。