HPC-ProFS DPeT610
最新鋭デバイスをフル活用し圧倒的な性能を実現したペデスタル型ファイルサーバ
高速なQuad Core Xeon (Westmere-EP) と25.6GB/sのDDR3メモリを搭載
流麗なシャシに最大2TB x8基 計16TBのディスクと96GBメモリを搭載可能
6Gbps SAS 2TB HDDとPCIe2.0対応RAIDコントローラを採用
RAIDコントローラはRAID6でR700MB/s、W1000MB/sに到達
新設計シャシにて冷却の最適化と低騒音化、ツールレス化、ケーブルレス化を推進
Linuxファイルサーバ構築、オンサイト設置サービス、既存サーバからの移行支援を実施
システム統合管理ツールとメールによる障害通知機能を搭載
3年間当日4時間オンサイト保守、障害予兆検出、部品先出、早期予防部品交換実施
HPC ProSupportは、HPCクラスタを知り尽くしたベテラン技術スタッフが管理チーフを務めることで実現する、ユーザ側の視点に立った満足度の高い保守サポートです。HPC修理サービスと協調して機能することで優れたHPCクラスタの保守サービスを実現します。
気配りの届いたHPCサポートを実現するためには、細部にまで配慮の行き届いたシステム設計が欠かせません。そこでHPCクラスタの標準仕様の策定にあたっては、ベテランのサポート担当者も策定作業に参加し、サポート考慮した設計の実現に努めています。
HPCクラスタの設計では計算機のライフサイクルを考慮することが大切です。HPCクラスタのライフサイクルとは、新システムの導入、既存システムとの接続、安定運用時期、次期システムとの接続、運用終了というステージに区分できます。ライフサイクルデザインをすることで、これらの各ステージでHPCクラスタの保守管理が適切に行われるようになり、安定した継続運用を可能とするシステム設計です。
サポートサービスで大切な点はHPCクラスタに精通した話の通じるサポート担当者がいることです。適切な担当者が対応することで、症状のヒアリングから障害の切り分けが始まり、具体的なアクションにより解決のプロセスが始まったことを実感できます。さらに、統合システム管理ツールなどのログを確認するような簡単な作業で、より詳しい症状の解析を共同で行うことが可能です。
HPCクラスタは各種技術が集積した複雑なシステムであり下記の項目についての実践的な知識が求められます。
アプリケーションの知識
HPCクラスタのサポートではアプリケーションについての理解も求められます。特にHPCクラスタではネットワーク並列アプリが利用されることが多く、これらの挙動に詳しい知識を持ち合わせていないとサポート対応は容易ではありません。あるいは巨大メモリを利用するアプリケーションや、大容量高速ディスクを常時使用し続けるアプリケーションでもその挙動を知り尽くしている必要があります。
計算機の知識
HPC計算機をシステムインテグレーションする場合は、科学技術計算アプリケーション側からみた見た計算機ハードウェアについての細かな知識が求められます。
ストレージの知識
ストレージのサポートも大切です。バックアップのスクリプトについてのサポートは元より、万一の障害時には迅速なレストアサービスが出来ることも常用なポイントです。
開発環境の知識
サポートを行うためには開発環境についても詳しく知っている必要があります。標準化しているIntelコンパイラのみならずPGIコンパイラ、各種数値演算ライブラリなどについても理解が必要です。さらにライセンス管理についてもライセンスサーバの構築などの理解が必要です。、
OS (Linux)の知識
HPCで利用する場合はOSも標準的な構成からHPCクラスタ向けにカスタマイズする必要があります。
ネットワークの知識
ネットワークについてもNFS、NAT、NISサービスなどの知識が必要です。
MPIの知識
MPIについてもその利用方法から各アプリケーションからの利用方法、各種実装についての経験と知識、高速ネットワーク機器についての知識が必要です。
ジョブスケジューラの知識
HPCクラスタはジョブスケジューラが導入されていることが一般です。ジョブスケジューラについてのサポートももとめられます。さらに、並列処理アプリケーションのジョブスケジューラ経由での利用サポートも求められます。
時間のかかるサポートはお客様に大きなご迷惑をおかけします。そのためには迅速で確実な復旧を実現できることが大切です。
WEBブラウザから利用できる便利な「システム統合管理ツール」を搭載しています。このツールはブラウザベースのため、手元のパソコンからでも利用することが可能です。しかも日本語化された表示と日本語のダイアログボックスでマウスが使えますから、直感的に操作することができます。更に便利な機能として、このツールだけでサーバ、RAIDコントローラ、ディスクドライブ、その他のハードウェア資源のステータスを全て表示させ、必要に応じて操作することができます。障害が発生した場合でも状況の調査を遠隔地からでも簡単かつ確実に行えます。
部品に障害や障害予兆が発生すると、青色に光っていたLCDパネルがオレンジ変化し、障害箇所が文字で表示されます。そのため障害の発生が見つけやすく、より迅速な修理対応が可能になります。なお、RAIDディスクに障害が発生するとオレンジ色に変化すると同時に自動修復が開始され完了すると再び青色に戻ります。その場合も障害通知メールが発信されているので、障害を見落とすようなことはありません。
ディスクに障害が発生したり、障害の予兆が自動的に検出されると、メールによる障害通知が行われ、障害が発生していることを知ることができます。そこで「システム統合管理ツール」を用いて障害履歴を確認していただき、弊社への連絡をおねがいします。迅速なオンサイトサポートを開始します。
ファイルサーバ (マスターサーバ) では、部材の障害などが原因で突発的なダウンが発生すると、サービスを提供しているシステム全体が影響を受け、大きな問題が発生します。この問題を回避するためには早期に障害予兆を検出し予防的な部品交換を迅速確実に実施するなどの保守サポートが必要です。「HPC-ProServe DPeT610F」は次のような万全の保守体制を確立し、お客様のHPCクラスタを何時でも確実に利用していただけるよう努めています。
●障害予兆の検出機能 (メモリ/ディスク)
メモリとディスクについては障害が発生する前に、障害の予兆を検出し、早期に予防的な部品交換をオンサイト保守で行います。「HPC-ProServe DPeT610F」はメモリとディスクの障害の予兆を検出する機能を搭載しています。
●当日4時間オンサイト保守
障害が発生すると全国展開している修理拠点から営業日の営業時間範囲で指定地域内では当時の4時間以内にオンサイト保守担当者がお客様サイトを訪問しハードウェアの修理作業を行います。
●修理部品先出
修理に必要な部品は、事前の障害状況の確認で得られた情報と、過去のデータの蓄積から、必要と考えられる範囲の部品を一式で、各地の物量センターから迅速にお客様サイトにお届けします。
●現地障害特定
十分な修理部品を準備して修理に臨み、診断ツールで得られた情報に従って部品交換を行ながら障害の特定を行い、確実に復旧するまで修理を継続します。
●早期の予防部品交換
障害の予兆は出ているが、まだ障害を起こしていない部品であっても、障害の予兆レベルが閾値を超えている場合は早期部品交換を行います。
●復旧の技術支援
ファイルサーバ (マスターサーバ) の復旧はハードウェアの回復を行うだけで完了するものではありません。システムが正常に接続され、ジョブの自動実行が正常に開始されてはじめて修理が完了します。弊社では、お客様と連絡をとりながら、システムレベルの復旧までをサポートしています。
●お客様の設定情報と機器構成をカルテとして保存
お客様情報はお客様カルテに詳細に記載し保管しています。ハード的な障害が復旧した後、お客様情報を利用することでシステムレベルの復旧サポートが確実に行えます。
「HPC-ProServe DPeT610F」には3年間の当日4時間オンサイト保守と弊社技術サポートを無償で実施しています。さらに、ご希望に応じて最長で5年間まで保守帰還の延長が可能です。
品質に最善を尽くしても故障率をゼロにすることは困難です。品質に手を尽くし、冗長化などにより可用性を向上させた後は、サポート体制の整備により迅速・確実な障害復旧を目指すことが現実的です。その状況を確認してゆきます。
HPCクラスタの安定稼働を実現するためにはサポート品質を考慮したシステム設計が大切です。機能に応じて冗長化やサポートレベルを適切に選択することで高い信頼性のシステムを低いコストで導入できます。
高いサポート品質を低いコストで提供することは容易ではありません。この課題を解決するカギが製品種類の絞り込みです。種類を絞り込むことで、システム全体の組み合わせパターンが減少し、より徹底した相互バリデーションが可能となり、高品質と低コスト化の両立が実現されます。その反面、品種を絞り込むとシステムの拡張性が損なわれる可能性があります。しかしこの心配は杞憂です。ラインナップを上位機種に限定し大量生産することで生じる量産効果により、上位機種の低価格化を実現し、高性能かつ大容量の製品を潤沢に使用することで高い拡張性を実現しています。
高水準のサポートを実現するためには系統的かつ包括的なバリデーションの徹底が欠かせません。導入されてから月日が経過した計算機の障害部品を交換する際には、新部品と既存機の相性が良いことが保証されている必要があります。バリデーション管理が修理部品まで含んで適切に行われていると、このようなトラブルを防ぐことができます。修理用部品の在庫の有無は最低限の条件で、さらに系統的なバリデーションの実施が今後のサポート品質では重要なファクターになります。
製品品種が絞り込まれていることで、バリデーションが厳しく実施された信頼性の高い修理部品の5年間保持が容易です。しかも部品点数が絞り込まれているので世界的に展開される修理部品デリバリーシステムの整備が低コスト化で可能です。その結果、良質のサポートを低価格で提供できます。
迅速なオンサイト修理を実現するためには、修理部品デリバリーシステムの確立も重要です。そこで、全国の要所に修理部品の保管と発送の拠点を整備し、当日4時間の迅速な部品配送を実現しています。
万一の障害に対して迅速な修理サポートを実現するため、オンサイトサービススタッフが常駐するサポート拠点が全国に展開されています。障害が発生すると迅速にお客様サイトに駆けつけ、障害箇所の現地切り分けや修理部品交換などを迅速に行います。
修理の基本は迅速・確実な作業です。修理に手間取りそうな場合は、広範囲の部品を大胆に交換し、修理時間短縮を優先します。お客様へのご迷惑を最小限に抑えることができます。
部品交換のみでは解決しない障害でもファームウェアを更新することが解決する場合があります。最長5年に亘る保守部品の保管では適切なファームウェアの管理も行われています。