HPC-ProServer DPeR905
Hexa-Core / Quad-Core Opteron搭載の4socket HPCサーバ
最大256GBのメモリを搭載可能、最大5基のSASディスクを搭載可能
商用ジョブスケジューラLSF対応、冗長化電源、ホットプラグディスク、冗長化ストレージに対応
3年間の当日4時間オンサイト保守と部品保証を無償実施、技術・運用支援も無償実施
6-Core Opteron 4CPU 24Core「HPC-ProServer DPeR905」は6-Core Opteronを4基搭載し最大24コアをNUMAメモリ上で利用できるHPC計算機です。32基のメモリスロットを備えており8GBメモリを搭載することで256GBのメモリ空間を実現できます。
Opteron系システムの大きな特徴はHyperTransportと呼ばれる高速なCPU内通信技術により高速なNUMAシステムを実現していることです。各CPU上にローカルなメモリコントローラを搭載し、CPUとメモリが直接通信しています。異なるCPUに接続されているメモリ空間を利用する場合は、HyperTransportを経由して高速なアクセスが可能です。そのメリットは、CPU数の増加に従いメモリポート数 (メモリ帯域)がも増加し、メモリ帯域とメモリ容量の双方が直線的に増加する仕組みとなっていることです。

メモリ帯域の大きさが特徴のOpteronの特徴をさらに向上させるため従来のDDR2 667MHzメモリに変えてより高速なDDR2 800MHzメモリを1GB、2GB、4GB、8GBモジュールで採用しています。その結果、SPEC CFP2006 RateでのOpteron 2.7GHz 16並行処理性能にて183という記録的性能を達成しています。
大容量メモリーを搭載した計算機を長時間連続動作させ結果を求めるHPC計算では、安定した計算機の稼動を実現するためメモリーエラー対策が必須です。その対策を考えるため代表的な3種類のメモリーエラーを示します。1種類目は「初期不良」によるメモリーエラーです。これは半導体ウエハ処理工程で発生した欠陥や不具合が、半導体メーカーのスクリーニングを通り抜け潜在的不良として残されたまま製品化され、その潜在的不良が使用開始後に顕在化しメモリーエラーを引き起こしているものです。2種類目は「経年劣化」によってメモリ不良が発生しメモリーエラーを引き起こしているものです。3種類目は「ソフトエラー」と呼ばれるメモリーエラーです。これは宇宙線が原因で偶発的にメモリー値が反転する非破壊的なシングルビットエラーです。
「初期不良」メモリをスクリーニングする最良の手段は、組み立てが完了したHPC計算機上でLinpack HPLなどの負荷の高い計算を連続動作させ、メモリエラーが発生しやすい条件で十分な試運転を行うことです。試運転中にメモリエラーが発生するとエラーはECCメモリにより自動修復され、同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると初期不良メモリと判断し、早期部品交換を行い計算機の信頼性を回復させます。
何ヶ月も安定動作していた計算機のメモリが突然エラーを発生させることがあります。このような場合でもECCメモリを使用しているとエラーは瞬時に訂正され動作は継続されます。同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると不良メモリと判断し、致命的な障害を起こす前に早期部品交換を行います。
「ソフトエラー」と呼ばれる宇宙線が原因で非破壊的にメモリ値が反転するシングルビットエラーも稀に発生するようです。このような「ソフトエラー」対策としてはECCメモリの搭載が最善です。ECCめもりによりシングルビットエラーが発生しても何事も無かったように動作が継続され実害は発生しません。
コア数の増加とクロック速度の向上によりメモリ帯域は逼迫してきます。その緩衝を目指して最新のOpteron (Shanghai)は従来の2MBキャッシュを大幅に増量した6MBキャッシュを搭載しています。
Opteron (Shanghai)には45nmの製造プロセスが採用されています。線幅が細くなることで、消費電力の低減のみならず、価格の低下、キャッシュメモリの増強など、多面的な性能と機能の強化が実施されています。
Opteronが圧倒的に有利な計算分野は「メモリI/Oが多い計算」です。この種類の計算は、現行のXeonアーキテクチャが苦手としていすま。そのためOpteronsとXeonは利用分野で棲み分けをすることが可能です。さらに45nm Opteron (Shanghai)ではCPUクロックも上昇、メモリクロック速度の上昇、キャッシュメモリの大容量化などの効果があり、「メモリI/Oが少ない計算」でも性能向上が確認されています。下記のwrf、lislie3d、GemsFDTD計算はXeonが苦手とする計算ですが、Opteronは16並行処理でも素晴らしいスループットを示しています。
| アーキテクチャ | Q/C Opteron (45nm) | Q/C Opteron (65nm) | D/C Opteron (90nm) | |||
| CPU番号 | 8384 | 8384 | 8356 | 8356 | 8222SE | 2222 |
| クロック(GHz) | 2.7GHz | 2.7GHz | 2.3GHz | 2.3GHz | 3.0GHz | 3.0GHz |
| CPU 数 | 4 | 4 | 4 | 4 | 4 | 4 |
| コア数 | 4 | 4 | 4 | 4 | 2 | 2 |
| 総コア数 | 16 | 16 | 16 | 16 | 8 | 8 |
| 実行ジョブ数 | 16 | 1 | 16 | 1 | 8 | 1 |
| 複数ジョブ実行時の経過時間 (sec) | ||||||
| wrf | 965 | - | 1119 | 608 | 814 | 678 |
| leslie3d | 1394 | - | 1783 | 1012 | 1096 | 782 |
| GemsFDTD | 1604 | - | 1970 | 587 | 1265 | 813 |
※ 公開されているSPEC CFP2006、SPEC CFP2006 Ratesよりデータを抜粋。
※ コンパイラの影響も調査する必要があります。
お客様が希望されるアプリケーションの特性や挙動と、計算機の特性とのマッチングは複雑な作業です。さらに実際のシステム設計では、利用状況や運用方法にまで踏み込んだ詳細な調査やヒアリングが必要です。弊社ではこのようなお客様のご要望に対応した実践的なシステム設計サービスを実施しています。またシステム設計において必須の実機による動作検証についても、弊社内に専用のベンチマークセンターを設置しています。このベンチマークセンターでは、お客様のアプリケーションの動作確認のみならず、各種商用アプリケーションなどの試験動作も実施しています。右写真はテストセンターで稼動しているInfiniBand接続のHPCクラスタです。
ベンチマークの結果、各種調査の結果、お客様からの情報を総合してシステム設計を行います。基本的なシステム設計は無償で行いますが、より深く課題に肉薄した調査やシステム設計に関しては有償にてサービスを行うことも可能です。
大切な予算を投入して導入する高価なHPCサーバだからこそトップブランドの製品を強くお勧めします。トップブランドの製品は世界中での幅広い導入実績を背景とした高い完成度を持っています。さらに「HPC-ProServer DPeR905」では、このハイエンドサーバをベースとし、徹底的なHPC専用のシステムインテグレーションを施し、社内での初期不良対策を行った計算機です。
16並列機ともなると複雑な内部構造を持ち、安定稼動を実現するためにはシステムにも高い完成度が求められます。「HPC-ProServer DPeR905」は高度な開発力と生産力を持つDellが威信にかけてリリースした高品質サーバです。そしてHPC技術やサポートでは高い評価を頂いている弊社がシステムインテグレーションを行うことで確実な運用が実現できます。「HPC-ProServer DPeR905」は品質、性能、完成度の三拍子が揃ったHPC計算機です。
「HPC-ProServer DPeR905」を安心して利用していただくために品質管理とメンテナンス体制が完備しています。採用されているCPUをはじめとした各パーツは、Dellの圧倒的な購買力をバックに徹底的した品質管理がされています。さらに開発段階で徹底的に改善され、製造段階でも厳しく検査され、出荷後はデータベースを駆使した履歴管理の実施、サポート段階では修理部品のストックと迅速なデリバリーの実施、当日4時間オンサイト保守サービスの実現など、全てがシステマティックに機能し、お客様に安心を提供しています。
ワークステーションとサーバの違いは、要求される可用性の水準が異なることです。ワークステーションはクライアント側のため、万一停止しても影響は限定的です。そのため万一故障すると一旦停止させてから修理することが通常のスタイルです。また修理に際してはお客様にもご協力を仰ぎ、力をあわせて復旧に努めることが通常です。これに対してサーバは、複数のクライアントにサービスを提供しているため、突然停止することは許されません。基本的には障害が起こっても運用を継続し無停止での復旧を目指しています。そこで部品の冗長化とホットプラグ化を実施します。
サーバをお勧めするメリットとして、修理作業時にお客様を煩わせることが無いことが挙げられます。無停止運用を追及するサーバでは、サポート体制も高度に整備されており、障害の発見、障害箇所の特定、部品の手配、障害箇所の交換までが迅速・確実・丁寧です。また、サーバでは予防交換も積極的に実施されます。これは故障箇所の特定に時間が掛かるような障害では、時間のロスを最小化するために、疑わしい部品群は予防的に一挙に交換されます。その結果、障害は迅速に完治し、不安定な状態がズルズルと長引くようなことがありません。
サーバ製品には、サーバ本体やCPU、メモリ、ディスク、拡張装置類などを一括して把握や操作ができる統合管理ツールが搭載されています。このツールが搭載されていると、万一の障害時には総合管理ツールから得られた情報を保守サービスに伝えることができ、迅速かつ的確な保守サービスの実現に役立ちます。
LCDによるシステム診断パネルが実装されており、障害を起こした部品の情報が表示されます。そのため、障害対応の依頼を行う際にも、その表示内容を伝えていただくことで、障害の特定が素早く行うことができ、修理部品の準備が迅速に行え、訪問する修理スタッフも準備万端の状態で作業に臨むことができ、保守時間を大幅に短縮することができます。
確かな情報に基づいた生産管理と品質管理により、受注から納入までの期間が確実に守られます。さらに、確かなシステムインテグレーション技術により、お客様の手を煩わすことなく迅速な本格稼動を実現します。