HPC-ProFS DPeT300のサポート
2TB (RAID6)、1+1TB (RAID1)を構成可能な高品質、小型、低騒音のXeon 1wayファイルサーバ
電源冗長化、ホットスワップディスク、総合管理ツール、障害表示LCDパネルなどを装備
3年間当日4時間プラス対応オンサイト保守 (部品先出、障害切り分け) にて安心
障害予兆検出、早期部品交換、予防部品交換、HPC運用復旧支援にて信頼性が向上
HPC分野で使用されるストレージは、一般のIT分野で使用されるストレージとは、求められる容量、構成、性能、信頼性、保守、費用などが大きく異なります。既に一部の研究室では100TB級ストレージの運用も始まっていますが、このような大規模ストレージの維持管理には大きな負担が伴います。できれば面倒なストレージの構築・維持・管理は業者にアウトソーシングし、ユーザは利用に専念することを望まれています。
このようなご希望に対応できるよう弊社では、「HPC-ProSupport」と呼ばれるHPC分野に焦点を絞った技術サポートを行っています。このサポートでは、高度なHPC技術を持つ弊社が「HPC技術サポート」を担当し、優れたオンサイト修理チームと修理部品配送システムを持つデルサポートが「当日4時間対応のオンサイト修理サービス」を担当します。高い専門性を誇る両者が協力してお客様をサポートすることで、従来とは別次元の高度な「HPC Professional Support」を実現します。
弊社が行う「HPC技術サポート」とは、HPCに精通した弊社の技術スタッフが、ハードウェアを含むシステム全般の技術課題への対応、障害/エラー検出時に行うオンサイト修理の作業監督、復旧時の技術支援、システム拡張や変更時の設計支援など、システム全体を視野に入れた技術サポートを行い、お客様の技術的・時間的な負担を軽減いたします。
優れたオンサイト修理チームと部品配送システムを持つデルサポートが行う「当日4時間対応のオンサイト修理サービス」の業務フローをご紹介します。計算機は異常を検知すると音やメールなどでお客様に警報を発します。弊社はお客様から連絡を受け障害を確認すると、お客様に状況を説明すると同時に、デルサポートに対してオンサイト修理の手配、修理部品の手配、リモート接続によるシステム状況の確認、現地障害切り分けの支援、復旧状況の確認などを行い、迅速・確実な復旧を目指します。もし障害箇所の特定に時間が掛かりそうなら、デルサポートと協議し原因が疑わしい部分をブロック単位で交換する「予防部品交換」を行ったり、再発の可能性が高いエラー情報が確認された場合には「早期部品交換」を行い障害の発生を未然に予防します。このように弊社とデルサポートが特徴を活かし協力しながらサービスを行っています。
ストレージの障害は大きな被害を起こす可能性があり、それを回避するため冗長化が多用されています。しかし冗長化には限界があります。冗長化は修理完了までの緊急避難的な機能ですから、頼りすぎは危険です。それよりも大切なことは、ストレージが障害を起こす前に予兆を発見し早期部品交換を実施することです。
障害予防では製品故障ライフサイクルの知識が役立ちます。製品故障ライフサイクルは一般に3つの時期に区分されます。導入初期の故障が多い期間は「初期故障期間」と呼ばれます。この時期の故障原因の多くは製造過程のミスです。その後しばらくすると動作が安定する「偶発故障期間」と呼ばれる時期になります。この時期に発生する故障原因の多くは偶発的に発生する故障です。長期間使った後に経時劣化による故障が発生するようになると「磨耗故障期間」と呼ばれる時期になります。このように由来の異なる故障に対しても、下記のような障害予防方針で対応することで、発生する被害を最小にコントロールすることが可能です。
障害予防で大切な事項をあげると、障害の予兆となるエラーを検出する「エラー検出」、早期に部品交換を行い障害を未然に防ぐ「早期部品交換」、エラー箇所の特定が困難な場合は関連する部品を含めてブロックレベルで部品交換する「予防部品交換」の3項目を数えることができます。
最近の記憶デバイスはエラー対策が施されていることが多く、多少のエラーが発生しても自動的に修復されます。例えばECCメモリではシングルビットエラーが発生しても自動的に修復され正しい結果が出力されてしまいます。ハードディスクでもECC機能や、エラー箇所のリトライによる高度な再読み出し機能、RAIDデータを用いた部分修復など、多重な修復処理行われ正しい結果が出力されます。さらにエラー箇所も代替されてしまいます。このようなエラー修復機能は非常ありがたい反面、副作用が潜んでおり、水面下で進行する部品の品質劣化を見過ごす可能性があります。そこで活躍するのがエラー監視機能です。エラー監視機能は自動修復されたエラー情報を記録しており、同じ箇所でエラーが頻発しカウンタが閾値に達すると、障害の予兆が出ていると自動的に判断し警告を発することで、致命的な障害が発生する前に早期の対策を行うよう促します。
障害予防では、常にハードディスク上の潜在的なエラー箇所を探査しクリーンにしていることが大切です。もし普段は読み書きしないハードディスク上の一部にエラー箇所が密かに発生すると、そのエラー箇所は将来読み書きされるまで見逃されたままになりますから非常に危険です。そこで、潜在的なエラー箇所を探査するためディスク全体を巡回し読み書きする機能がバックグラウンドで動作しています。さらにこれとは別に、RAIDデータの一貫性をチェックする機能も動作しています。これらの働きによりエラー箇所やデータの不整合などが検出されると自動的に訂正され、同時にエラー情報がシステム監視ツールに記録されます。そしてもし同じ箇所でエラーが頻発しエラーを記憶しているカウンタが閾値に達すると対策を促します。
製造段階のミスが初期故障を発生させます。そこで弊社は初期故障対策として、社内でシステムを組み上げた後に徹底した負荷テストを行い潜在的なエラーの洗い出しています。発見したエラー箇所はその場で早期部品交換や予防部品交換を行い正常に戻し、再び負荷テストを行い安定動作を確認してから出荷します。この工程によりお客様のサイトで発生する筈だった初期故障を封じ込めることに成功しています。
ハードディスクやメモリなどは、安定動作していたとしても偶発故障を起こす可能性を残しています。例えばあるハードディスクの年間故障発生率は約0.7%と故障は少ないですが、故障しないということではありません。故障する時はします。しかしその故障を工夫により減らすことは可能です。具体的には、故障の予兆を検出したら早期部品交換を行うことで、故障を激減させることが可能です。最新のディスクやメモリは小さなエラーであれば自動でエラー訂正し不良箇所を代替する機能が備わっています。そのため、小さなエラーの発生が即座に大きな障害を起こすことは僅かです。しかし、エラーの発生頻度が高くなるとシステムが対処し切れなくなり障害を起こしてしまいます。そこで常にエラーの発生を監視しエラー発生頻度が閾値を超えると、実際の故障が発生する前に「早期部品交換」を行い、障害の発生を未然に防ぐ保守を行うことが望まれます。
エラー検出通知を受けてストレージ修理の現場に臨んでも、障害の原因が判り難く、原因の特定に時間がかかるような場合があります。このような場合は障害に関連する部品を含めてブロックレベルで部品交換を行う「予防部品交換」が適しています。予防部品交換を行うことで原因調査に費やす時間を大幅に短縮し迅速な復旧を実現できます。さらに予防部品交換では、障害の原因が潜んでいる可能性のある箇所を根こそぎ交換するため、障害の原因を見落としていても確実な修理を実現することができ、修理の確実性を飛躍的に向上させることが可能になります。
ストレージには寿命がありますから、その期限内でのご利用をお願いします。機器の寿命が近づいたら磨耗故障が発生する前に、次のストレージを導入しデータ移行や動作確認などを余裕のあるスケジュールで実施してください。弊社は新しく導入されるシステムの設計、機器のシステムインテグレーション、データ移行やシステムの再統合まで、一貫したサポートサービスを実施しています。
Dell製品の特徴は徹底した品種統合と大量生産により製品の高品質化、標準化、低価格化を一挙に実現していることです。さらに生産した良質の計算機コンポーネントを組み合わせエンタープライズ級のシステムを構築する製品戦略を組み合わせています。そしてこの製品戦略を底固めするため保守体制の充実にも力が入っています。保守で使用する修理部品については、部品在庫、品質管理、技術情報まで、ワールドワイドで展開する強力な仕組みが機能しており、必要と判断された修理部品は確実に修理現場に届けられます。「HPC-ProFS DPvMD1000」はこの戦略製品をハードウェアに採用することで、Dellの製品に備わった高度な保守オペレーションを弊社の保守サービスと組み合わせることに成功しています。
早期部品交換や予防部品交換の判断は当方で行わさせていただいております。交換には最善を尽くしておりますが、全ての障害を事前に防止できるものではありません。大切なデータを管理される際にはバックアップの実施を強くお願いします。なお弊社ではバックアップシステムを含んだシステムインテグレーションも承っています。
異常の警告は見落とされないように多重化される必要があります。システムは以下のように警告を多重化しています。
⇒ メールによる障害発生時の障害通知機能
⇒ LCD表示による異常の表示
⇒ 警告音によるRAID異常の警告
⇒ WEBベースの管理ツールでの障害箇所の表示 (PERC6/Eのみ)
警告表示と併せて、障害箇所の可能な限りの特定をシステム監視ツールが自動で行い、LCDにエラーメッセージを表示することで、迅速・確実な対応に役立ちます。
⇒ LCDによる異常箇所の表示
⇒ 自己診断ツールによる障害箇所の特定
⇒
異常箇所のLEDを光らせ確認をさらに容易にする
⇒ 管理ツールにより複雑なシステムでもパーツ単位でステータスを確認
保守性の良いハードウェアと部品の迅速確実なデリバリーこそ保守の要
⇒ 保守性の良い筐体 (部品のモジュール化、ワンタッチ交換、スライドレール実装)
⇒ ハードディスク、電源、ファン、カード類、ケーブル類など品質管理
⇒ デルの世界的なロジスティックス網に支えられた部品配送システム
⇒ 早期部品交換により障害の発生を未然に予防
⇒
予防部品交換により修理作業の確実性が飛躍的に向上
高い修理技術を持つ修理技術のプロ集団を全国展開し、当日4時間のオンサイト修理を実施
⇒ 当日オンサイト修理を支える全国展開の修理スタッフ網
⇒ 平日なら基本的には当日、遅くとも翌営業日には修理スタッフがお客様サイトを訪問
⇒ 予防部品交換にも対応できる潤沢な部品を先出することで迅速確実な修理作業を実現
⇒ オンサイトでの障害切りわけによる迅速確実なオンサイト修理の実施
⇒ RAID10 + スペアディスク構成により無停止でのディスク交換に対応
⇒ RAID6でもスペアディスクの搭載を推奨
⇒ 復旧作業開始前のrsyncによるバックアップを強く奨励
⇒ ストレージの復旧には経験が豊富な技術者が対処
⇒ デルサポートと弊社が連携した手厚いサポート
⇒ お客様カルテにより、システム全体の機器構成、障害状況を把握したうえで対処
⇒ 新規ストレージのシステム設計
⇒ 旧ストレージからのデータ移行
⇒ 新規ストレージと既存システムの融合
PCの性能向上とLinuxの進歩により高いコストパフォーマンスと汎用性を持つに至ったPCベースのHPC計算機「PCクラスタ」は、科学技術計算用プラットホームの主流となっています。さらに多くの科学技術計算用アプリケーションがPCクラスタに移植され、大手計算機ベンダーやPCベンダーの多くがPCクラスタの製品化を行うようになったことで、PCクラスタの利用はさらに広がっています。
業務で用いるサーバやワークステーションを選ぶなら、大手ベンダー製の安定した実績を持つ製品が一番です。大手の製品は、設計段階からの品質管理とバリデーション、量産効果による生産品質、生産管理による確かな納期などで安定した品質を持っています。さらにサポートについても、継続的なバリデーション、不具合箇所の改善、サポート体制の整備・維持、保守部品の供給管理など、首尾一貫した体制が敷かれています。
PCクラスタの利用に慣れたお客様からは、大手ベンダーの安定したハードウェアを採用した、小型/中型PCクラスタの構築を行う、HPC専門のシステムインテグレータへの要望がふくらんでいます。
業務で使うPCクラスタの構築が難しくなっています。PCクラスタとして動作さすることはもちろん、高い性能、使いやすい環境、安定した動作、アプリケーションの最適化、既存システムとの接続など、多くの技術サービスが求められます。そのためには一般的なコンピュータの知識とHPCについての知識の双方が求められます。
業務で使用するHPC計算機やPCクラスタの保守サービスに関しては、サービスの良い「当日/翌日オンサイト保守」を経験してしまうと、これまでの面倒で何日も計算機が使えなくなる「センドバック保守」には戻りたくなくなります。
デルサポートの特徴は、世界共通のサポートデータベースを整備し詳細なサポート情報を世界全体で共有していることです。その結果、発生頻度の低い障害や新しい障害についても的確な対応が期待できます。
デルサポートは修理作業がマニュアル化されているため、オンサイトでも高水準の修理が行われることが期待できます。さらに世界各国からアップデートされるサポート情報も逐次マニュアルに反映されます。
お客様を訪問して修理を行うオンサイト担当者は常に技術研修を受け的確なサポート作業を行えるよう準備しています。
全国に200箇所以上のサポート拠点を持ち、製品についての専門知識を持ったサポート要員が待機しています。難易度の高いケースについては複数の技術者が出動し確実な作業を実施できる体制を敷いています。
お客様の製品には製品番号が割り当てられており、機器構成情報のみならず、これまでの対応履歴と現在の状況などがもデータベース化されているため、常に的確な対応を行うことができます。
オンサイト修理担当者の判断では対応が難しいような現象が起こると、現場のサポートを支援する技術スタッフがバックエンドに控えており、的確な作業指示を行い、必要に応じて追加部品の発送や応援スタッフの派遣などを機動的に実施します。
Dellのサーバやワークステーションの部品の多くはカセット式のため部品交換が簡単です。複数の部品の取り外しを伴うブロックレベルでの予防部品交換もスピーディーかつ安全に行うことができます。
修理に必要な部品の責任供給体制は大切です。そのため世界的な修理部品供給システムを確立し、国内にも多数の物流拠点と配達網を持ち、高品質な修理部品を迅速に配送する体制を整えています。
配送される修理部品の選択についても高度にシステム化されています。早期部品交換や予報部品交換を実現するためには障害状況毎に応じた適切な修理部品セットが費用です。これらも、知識ベースにより必要十分な範囲の部品が指定され、各地の物流拠点から適切にピッキングされ配送されます。
業務用のサーバやワークステーションのオンサイト修理では、障害の状況によってはクリティカルな状況に陥ることも少なくありません。その場合にも、HPC特有のシステム技術に関しては弊社の担当者が技術サポートを行い、確実な復旧を支援します。
弊社内にもお客様のシステムに関する製造・設定情報が保管されており、障害時には必要に応じてお客様カルテを参照しながら対策にあたります。
Linux OSなどの基本システムに関しても弊社が専門的な技術サポートを行います。
ネットワークなどに関しても弊社が専門的な技術サポートを行います。
運用上の障害などに関しても弊社が専門的な技術サポートを行います。
データバックアップに関しても技術支援を行います。
各種のエラー表示に関しても技術支援を行います。
各種のエラー表示に関しても技術支援をほ行います。
システムの利用方法に関しても技術支援をほ行います。
ストレージの運用に関しても技術支援をほ行います。
開発環境、ミドルウェア、アプリケーションなどに関しても弊社が専門的な技術サポートを行います。
運用の復旧に向けて弊社が全力で技術支援を行います。