HPC-ProServer DPeM915
Magny-Cours 2/4-socket 8/12-core Opteronを搭載するサーバブレード
高密度実装と高信頼性を両立できるブレード型のHPCクラスタ
サーバブレードのサイズはフルハイト、ブレード筺体に8台内蔵可能
各ブレードは48基のCPUコアを搭載でき480GFLOPSの理論性能を達成
ブレード筐体全体では384基のコアを搭載でき3.8TFLOPSの理論性能を達成
32個のDIMMスロットを搭載でき最大512GBのメモリを搭載が可能
4チャンネルのメモリポートにより42GB/s/CPUのメモリ帯域を実現
2.5インチHDDを最大2台搭載でき1.2TBのディスク容量を実現
Dual Port QDR InfiniBandを搭載でき高速な並列通信を実現
Dual Port 10GbEを搭載でき高速なファイル転送が可能
InfiniBand S/W、10GbE S/W、KVM S/Wなども内蔵可能
3年間の翌営業日オンサイト保守と部品保障を提供
3年間の技術支援を実施
HPC-ProServer DPeM915は12コアのOpteronプロセッサを4基搭載し、48コアの計算環境を実現するブレードサーバです。このブレードサーバは専用のブレード筺体に最大8台まで搭載することができ、8ノード32プロセッサ384コアのクラスタ計算機を構築できます。さらに複数のブレード筺体を接続することで、大規模な高密度実装クラスタシステムを実現できます。
ブレードサーバの特徴は、密度実装の高さ、システムの簡潔さ、管理の容易さ、信頼性の高さ、スケーラビリティーの高さ、サポートの優秀さなど、多く面で優れています。ブレードサーバでクラスタ計算機を構築すると、これらの特徴によってハード的には非常に優れたシステムを実現できます。このようなハードウェアの長所を活かしてブレードサーバによるHPCクラスタが増えています。
素晴らしいハードウェアが完成したとしても、それだけでは優れたHPC環境は完成しません。最新のHPC環境は、洗練された共同利用環境と、きめ細かな保守運用サービスが、当然のように求められます。
ところが、このような環境を構築・管理することは手間がかかり、システム管理者にとって大きな負担です。そのため、本業が忙しいお客様がシステム管理者の仕事を兼務されることは困難になっています。そして、これが原因でシステム管理者の減少に拍車がかかっています。
このような理由からシステム管理者が不在になったHPC計算機は、やがて少しづつ不具合が表面化するようになります。たとえば利用効率の低下や動作環境の不安さなどです。このような軽微な不具合でも利用者にとっては大問題になることがあり、そうなると具体的な対策が求められます。しかしシステム管理者が不在になったシステムの改修は容易ではありません。
そこで窮余の一策として、手元での計算機の運用を断念し、外部の計算機センターを利用するように方針変更される場合も少なくありません。この方法なら利用料を払うだけで、最新のHPC環境を利用できますから、問題は解決できたように見えます。
しかし計算機センターは万能ではありません。計算センターにもさまざまな問題があります。例えば、繁忙期に混雑すること、利用できるアプリケーションの種類が限られていること、定期点検によって停止すること、ハードウェアが陳腐化すること、利用環境が画一的なこと、社会的な要因によるサービスが低下する可能性があることなどが挙げられ、大規模共同利用環境に特有の制約があります。そのため計算センターに完全に依存することはリスクが伴います。
このようにして考えると、HPC計算機の理想的な利用形態は、手元の計算機と計算センターの計算機をバランス良く相互補完的させて使うとスタイルに辿り着くようです。実際に、多くのお客様はこのような使い方をされるようになっています。
HPC計算用アプリケーションは高度化と集約化が進んでいます。この流れはアプリケーションだけでなく、計算機やOS、開発環境、ミドルウェア、ネットワーク、ストレージなどでも同様です。当然、これらを組み合わせたHPC環境も同様です。
HPC環境全般が集約化しているということは、視点を変えればHPC環境の標準化が世界的なレベルで進んでいるということです。もし世界標準と同期したHPC計算に親しむ必要があるなら、HPC環境も世界標準と同期したものにしておく必要があります。
HPC環境を世界標準と同期させつづけるためには、システム管理者に高い技術スキルが求められます。これはステム管理者にとって新たな負担となり、システム管理の仕事がさらに困難になります。
実際に、世界標準に準拠したHPC環境を導入されているサイトの多くは、システム管理者の仕事はシステムの企画・設計・監督に限定し、手間や技術、経験の必要なサポート実務は外部にアウトソースされるサイトが増えています。
手元のHPC環境を世界標準に準拠したものにするための最善の方法は、システム管理者の仕事はシステムの企画・設計・監督に限定し、手間や技術、経験の必要な実務は外部のサポート会社にアウトソースすることです。このようにすることでシステム管理者の負担を減らしながら、高度なシステムの設計、構築、維持、管理が実現できます。
弊社でもこの課題に対応するため「HPC-ProSupport」という、HPC環境の総合的なサポート・サービスを開発しています。
HPC-ProSupportを利用するとシステム管理者の仕事は、システムの企画・設計・監督が中心となり、多くの手間と技術を要する部分はアウトソーシングできるため、負担が大幅に軽減されます。
さらにHPC-ProSupportは経験豊富な担当者による高度な技術サービスを提供しているため、世界標準のHPC環境を実現できます。世界と同期のとれたHPC環境を利用することで、HPC環境のグローバル化が実現でき、環境の孤立化が防げます。
| 役割 | これまでの役割分担 | これからの役割分担 |
| 企画 設計 監督 |
システム管理者 | システム管理者 |
| 設定 アプリケーション導入 保守 運用 管理 システム保守 |
HPC-ProSupport
世界標準の |
|
| 構築 初期設定 |
HPC業者 | |
| ハードウェア保守 |
従来の役割分担では、ハードウェア業者は、システムの構築と初期設定を行い、アフターケアもセンドバック保守が基本でした。そのため、システム管理者の負担は大きなものでした。
例えばシステムに障害が発生すると管理者は次のような作業に忙殺されることも少なくありませんでした。すなわち、障害の応急処置、障害箇所の特定、障害部材の取り外し、修理依頼、障害部材発送、修理完了確認、部材受け取り、部材組み付け、再設定、復帰などです。
これに対してHPC-ProSupportを導入すると、システム管理者の仕事は簡単になります。システムの企画・設計・監督というディスクワークが中心になり、仕事の片手間にできます。実際の実務はHPC-ProSupportが行います。
HPC-ProSupportはHPC計算機の専門メーカーである弊社が提供する、HPC環境の構築から保守運用管理までをカバーするHPC環境の総合サポートサービスです。
HPC-ProSupportのサポートは次の表のように非常に広範囲です。弊社はHPC-ProSupportをHPC計算機に標準バンドルすることで優れたHPC環境を安価に提供します。
| 時期 | サービス内容 |
| 検討時 | 性能調査 アプリケーション性能確認 (ベンチマークテスト) システム設計 |
| 構築時 | システム構築 |
| 導入時 | オンサイト設置 システム現地調整 ネットワーク環境、電源環境、耐震環境、冷却環境などの整備 オンサイトでのハンズオン利用説明 |
| 運用開始後 | 動作環境調整 (管理サーバ、ファイルサーバ、ジョブスケジューラ、ネットワーク、OS) アプリケーション追加導入 |
| 障害発生時 | 障害対応 障害切り分け 部品提供 オンサイト修理 (当日、翌日) ストレージリストア システム復旧 |
| 拡張 | 設計・製造・設定 システム追加 引っ越し |
| 運用停止 | 環境移行 データ移行 解体 廃棄 |
HPC-ProSupportは高度なサポートを実現するため、役割が異なる3つの機能を協調させてサービスしています。
第一の機能は、サポート・サービスの全体を統括するのセンター機能です。これは頭脳の役目があり、課題の把握と解決を担当します。お客様との窓口や、現場担当者の監督・指示も行います。この作業の担当にはHPCについての経験が豊富な技術者があたります。
第二の機能は、ソフトウェア環境を統括するソフト・サービス機能です。これはセンターからの指示によって、様々なソフトウェアやミドルウェア、OSなどの導入と設定などを行います。ネットワーク環境や利用環境の設定、ストレージ環境の構築なども行います。また、システムの障害時にはハードウェア・サービス機能と協調して、利用環境の停止や調整、ハードウェア復旧後の利用環境の復旧やストレージのリストアなども担当します。この仕事もHPC経験の豊富な技術者が担当します。
第三の機能は、ハードウェア環境の修理を担当するハード・サービス機能です。HPC計算機は高負荷で連続稼働させられるため通常よりも障害の確率が高くなります。しかも複数の計算機が協調して動作しているため、部分的な不具合が全体に波及することがあります。そのため迅速確実なハードウェア修理体制の整備が必要です。そこで弊社はクラスタ計算機の部品として業界上位のサーバメーカーの製品を全面採用しています。その結果、世界水準のハードウェア修理システムを利用することができ、迅速確実なハードウェア修理体制を提供できます。さらにHPCに特化したサポートサービスをソフト・サービス機能と協調することで実現しています。こ世界基準のハードウェア修理体制と、日本基準のきめ細かな運用支援サービスが結合することで、極めて高い水準のサポート・サービスを実現しています。
| 機能 | 内容 |
| 全体を統括するセンター機能 | 全体を管理する頭脳のやくめ お客様からご要望をお聞きし、対応方法を立案 お客様や関連部門と調整 |
| ソフト・サービス機能 | システム構築 システム設定 アプリケーション導入 オンサイト設置 ハンズオン利用説明 緊急障害対応 システム復旧 ストレージリストア |
| ハード・サービス機能 | ハードウェアの障害のオンサイト切り分け 修理部品の提供 (高品質な修理部品の保存) オンサイト修理の実施 当日あるいは翌営業日に対応 (迅速なハードウェア復旧) |
HPC-ProSupportはこれら3つの機能によってお客様のシステム維持管理の負担を激減させます。
HPC-ProSupportの理想は、お客様の声に真摯に耳を傾ける姿勢です。そうすることで、計算機のことだけでなく、それを利用されているお客様がなにを望まれているかということまで理解することができます。そこから弊社が本当にしなければならないことがわかります。
弊社は、お客様のご希望をお客様の生の言葉で伝えていただきたいと考えています。お客様が、お客様のご希望を無理をしてHPCの言葉に翻訳されようとすると、場合によっては真意を正確に翻訳できない可能性があるからです。それよりもお客様の言葉で伝えていただくことで真意が正確に表現されることの方が大切だと考えています。
お客様の真意を正しく理解できるか否かは弊社の側の課題です。お客様からお聞きしたことを正しく理解し、正確に技術的な言葉に翻訳し、その対策を考え、具体的な作業手順に落とし込むことが弊社の仕事です。そして、技術的あるいは契約上の制限で、できることとできないことを切り分け、あるいは無償でできることとできないこと、そして費用が発生するならその金額を積算すること、さらに解決までの時間も予想すること、最後にそれらをお客様に分かりやすく説明すること大切です。
このようなサポートを実現するためには、弊社の担当者がHPCに精通している必要があります。さらに利用者の側からみた見たHPC計算機について理解している必要があります。これができるようになって初めてお客さまが望まれていることを、お客様の言葉で理解し、それを技術サービスに展開することができるようになるのです。
もしサポート担当者が、コンピュータ技術についてのみ詳しいだけだと、お客さまの生の声の理解が浅くなり、お客様が望まれていることを正確に技術の言葉に翻訳できません。そのためお客様が望まれるサポートを提供することができません。お客様にとっては隔靴掻痒のような状態になります。これでは高度なHPCのサポートはできません。HPC-ProSupportの理想は、HPC計算機を利用するお客様の場に立ったサポートの実現です。