HPC-ProServer DPe2900VT
Xeon 2CPU 8Core 静音 ビッグタワー型 HPCサーバ
高い拡張性と容量を持ち幅広い用途に対応
最新45nmプロセスCPUを採用し高性能と低消費電力を両立
安定動作しているFSB1333MHz、DDR2 667MHzを利用
48GBの大容量メモリまで拡張可能 (12DIMMスロット実装)
4基のPCI-Eスロット、2基のPCI-Xスロットによる高い拡張性
10基の1TBディスクを内蔵でき、RAID0, 1, 10で運用可能
実績のIntel開発環境の搭載
(C、Fortran、OpenMP、Intel-MPI、数値演算ライブラリ、最適化ツール)
実績の標準Linux (CentOS) 搭載、LSF搭載、システム全般のセットアップ、安心の管理ツール搭載
3年間の長期保証 (翌営業日オンサイト保守、部品保証、技術・運用支援) (最長5年まで延長可)
『HPC-ProServer DPe2900III-T』は、優れた実績を持つビッグタワー型の静音HPCサーバ、「HPC-ProServer DPe-2900 (II)」の改良版です。DPe-2900の静粛性や堅牢性など優れた特長を受け継ぎながら、最新の45nmプロセスを採用して製造されるXeon 5400シリーズ(Harpertown)のプロセッサを採用することで、性能向上と消費電力の抑制 (優れた電力効率の達成) を実現しています。以下にHPC-ProServer DPe2900III-Tの優れた点を箇条書きにします。
◇ 8Coreメモリ共有環境で8並列処理を実現
◇ CPUクロック3.16GHzへの対応と、消費電力の抑制
◇ CPU毎に独立したFSB1333MHzの実装
◇ コア毎に6MBキャッシュの搭載
◇ DDR2 667MHz FB-DIMMの採用
◇ 48GBの大容量メモリ搭載
◇ 8基のディスクによる高速RAID0を実現
◇ 930Wの大容量電源の搭載
◇ サーバ用の多機能システム管理ツールの搭載
すなわち、高性能、大規模、高い拡張性、安定稼動を幅広く実現する計算機です。従って適しているHPC分野での用途は以下のようになります。
⇒ 高速8並列計算と安定稼動の両立
⇒ 大容量メモリと安定稼動の両立
⇒ 大容量のメモリファイルシステムと安定稼動の両立
⇒ 高速・大容量スクラッチディスクと安定稼動の両立
⇒ 多量の周辺機器を同時利用と安定稼動の両立
すなわち、高速かつ大規模なHPC計算を、極めて安定して実行させたい場合には最適の計算機と考えられます。これ以外にも管理サーバ系の用途にも適しています。
◇ オプションカード類を多く搭載でき、高速ネットワークや高速大容量ストレージを接続できる
◇ 8CPUコアが搭載され、重いI/O負荷が与えられても余裕で処理できる
◇ サーバとしての管理ツールが充実しており、本格的な運用に耐える
◇ 優れた標準サポートのみならず、オプションでさらに充実したオンサイトサポートが実施される
HPC-ProServer DPe2900III-Tに代表される最新技術を用いたHPC計算機は性能と信頼性の両立が課題です。そのため、基本デバイスの発表後に一定の熟成期間を設け製品の完成度を向上させています。この試作テスト期間は物量戦でもあるため、開発陣の充実した大手ベンダーは圧倒的に有利です。完成度の高い製品を短期間でお客様にリリースできます。このような大手ベンダーの製品を基本コンポートネントに採用する弊社のHPC製品は以下の特徴を持ちます。
◇ 高品質な必要部材が確実に確保できる
◇
初期障害が皆無に近い
◇ テスト時に起こる障害の修理が迅速かつ確実
◇ 確実なスケジュールを設定できる
◇ 納入後のシステムカットオーバーが迅速かつ確実
◇ 納入後も安定稼動が約束されている
◇ 弊社によるインテグレーションも量産化が進み価格もリーズナブル
◇ 納入後の故障修理も、無償でしかも迅速
HPC-ProServer DPe2900III-Tに搭載しているプロセッサは45nmプロセスで製造される最新のPenrynコアを採用したQuad-Core Xeon 5400番台 (Harpertown) です。このプロセッサの特長は、CPUクロック周波数が最高で3.16GHzに達し、搭載キャッシュサイズは12MB (6MB x2)へと拡大し、システムバス帯域もFSB1333MHzで動作しており高速動作が期待できます。
CPUとチップセットの接続にはFSB1333MHzの2本の独立したシステムバスが採用されており、21GB/sの転送帯域を実現しています。
45nmプロセスで製造される最新のPenrynコアでは、動作周波数が向上し、キャッシュサイズも増加しているにもかかわらず、消費電力はトップモデルの3.16GHzで120W、3GHzでは80Wと低消費電力化が進んでいます。
低消費電力化の実効性を高くするためにはシステム全体の低消費電力化も大切です。そこで、エネルギー効率に優れた電源装置の採用や、システム全体の低消費電力化、細かな電源管理の実施などをトータルに実施しています。
HPC-ProServer DPe2900III-Tは12本のメモリスロットを持ち、4GBのメモリモジュールを用いて48GBのメモリ容量を実現しています。この大規模メモリは大規模計算で有効のみならず、メモリファイルシステムとして利用することで非常に高速なスクラッチファイル領域としても有効です。
メモリには高速なDDR2 667MHz FB-DIMMを使用しており、転送帯域が5.3GB/sの4本のチャネルでチップセットと接続されており、論理的な総合帯域は21GB/sに到達しています。
高速なメモリは発熱量が大きく、搭載容量が大きくなると排熱の仕組みが必要となります。HPC-ProServer DPe2900III-Tは大型の筐体を持つため、メモリを強制冷却する仕組みを搭載できます。写真はメモリを直接冷却するファンです。写真中央のファンでメモリに冷気を吹き付け、右のファンで排熱を筐体外に排気します。冗長性にも配慮されています。なお、弊社のHPC計算機シーズでは8枚以上のメモリを搭載する他機種でも同様に冷却の仕組みを持っています。さらに負荷が高くなったり、室温が上昇するなどした場合には、温度センサーが働き、ファンの回転数を段階的に速め筐体内部温度を下げてくれます。
メモリの相性問題の解消には、徹底したバリデーションの実施と部品レベルからの徹底した品質管理が欠かせません。弊社が採用するDellの計算機は開発、製造、サポートまで一貫したテストと品質管理が行われ安定稼動するため安心して利用できます。
Dellの計算機を全面採用することで、万一のメモリ障害でも迅速確実なオンサイト修理が実施されます。根本的に高い品質管理によりこれまで社外で運用中に発生したメモリトラブルは550件中2〜3件程度しか発生しておらず皆無に近いのが現状です。さらにこれらの障害も迅速なオンサイト修理サービスにより翌日には修理されています。
大容量メモリーを搭載した計算機を長時間連続動作させ結果を求めるHPC計算では、安定した計算機の稼動を実現するためメモリーエラー対策が必須です。その対策を考えるため代表的な3種類のメモリーエラーを示します。1種類目は「初期不良」によるメモリーエラーです。これは半導体ウエハ処理工程で発生した欠陥や不具合が、半導体メーカーのスクリーニングを通り抜け潜在的不良として残されたまま製品化され、その潜在的不良が使用開始後に顕在化しメモリーエラーを引き起こしているものです。2種類目は「経年劣化」によってメモリ不良が発生しメモリーエラーを引き起こしているものです。3種類目は「ソフトエラー」と呼ばれるメモリーエラーです。これは宇宙線が原因で偶発的にメモリー値が反転する非破壊的なシングルビットエラーです。
「初期不良」メモリをスクリーニングする最良の手段は、組み立てが完了したHPC計算機上でLinpack HPLなどの負荷の高い計算を連続動作させ、メモリエラーが発生しやすい条件で十分な試運転を行うことです。試運転中にメモリエラーが発生するとエラーはECCメモリにより自動修復され、同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると初期不良メモリと判断し、早期部品交換を行い計算機の信頼性を回復させます。
何ヶ月も安定動作していた計算機のメモリが突然エラーを発生させることがあります。このような場合でもECCメモリを使用しているとエラーは瞬時に訂正され動作は継続されます。同時にエラー情報として記録に残されます。この記録を検査し、もし閾値を超える回数のエラー情報が記録されたメモリーモジュールが発見されると不良メモリと判断し、致命的な障害を起こす前に早期部品交換を行います。
「ソフトエラー」と呼ばれる宇宙線が原因で非破壊的にメモリ値が反転するシングルビットエラーも稀に発生するようです。このような「ソフトエラー」対策としてはECCメモリの搭載が最善です。ECCめもりによりシングルビットエラーが発生しても何事も無かったように動作が継続され実害は発生しません。
HPC-ProServer DPe2900III-Tはタワー型の大型筐体を持つことで最大で10基のハードディスクを内蔵可能です。全てのディスクドライブはホットスワップベイ対応となっています。選択できるディスクは最初にSASかSATAかを選択していただき、さらにSATAでは250GB、500GB、1TBからの選択、SASでは146GB、300GB、400GB、450GBからの選択が可能です。
RAID10構成で200MB/s級の転送速度を実現する実績の高性能RAIDコントローラPERC 5/iの新製品が『PERC 6/i』です。このRAIDコントローラを本体のPCI-Expressスロットに実装することで、上記の最大10基のハードディスクを用いて、多彩なRAIDアレイを構築することができます。PERC 6/iの設定や管理は、付属の管理ツール『Open Manage』から他の設定まで含めて一括して行えるため非常に便利です。
タワー型の大型筐体を持つことでディスクを10個まで搭載できます。管理サーバとし利用する場合にはRAID10構成を採用することで高い信頼性を実現できます。構成例を幾つかご紹介します。
◇ ストレージRAID10 2TB + スペアディスク (1TB 5基)、システムディスク領域RAID1 250GB (250GB 2基)
◇ ストレージRAID10 2TB + バックアップ領域 RAID0 2TB + スペアディスク (1TB 7基)、
システムディスク領域RAID1 250GB (250GB 2基)
◇ ストレージRAID10 2TB + 2TB + スペアディスク (1TB 9基)、システムディスク領域はRAID10領域上に確保
計算サーバとして用いる場合には、大容量・高速スクラッチディスクを構築できることが魅力です。構成例としては、250GBディスク8個をRAID0化し1.25TBのRAID0ボリュームを2セット構成とすることも可能です。勿論容量の増加や、ボリュームの結合や分割も自在に可能です。これにもパラメーターチューニングを施し高速化できます。
タワー型と余裕のある筐体のため、6枚の拡張カードが搭載でき、HPCクラスタの管理サーバとしての利用に適します。不足しがちなディスク容量に対してはSAS接続のRAIDコントローラPERC6/Eを搭載することで、最大90TBの容量まで拡張可能です。さらに、GbEカードや10GbEカードなどを実装可能です。
HPCクラスタの運用ではシステムの安定稼動が大切です。HPC-ProServer DPe-2900は多数のHPCクラスタの管理サーバとしての安定した稼動実績を持ち、お客様から高い信頼を勝ち得ています。このHPC-ProServer DPe-2900の実績をベースにして改良された製品がHPC-ProServer DPe2900III-Tです。
システム構築する側にとってもハードウェアの安定稼動は、SE作業の品質を大きく左右するため、非常に重視しています。限られた時間の中でシステムを完成させるため、ハードウェアが素早く安定すれば、多くの時間をシステム構築のブラッシュアップに投入できます。
HPCテクノロジーズの経験によりHPCに最適化したCentOSを搭載しています。(標準的なLinux OSはHPC利用を考慮していません。) 最適化作業としては、HPCで必要となるパッケージの追加、HPCで不要なデーモンやサービスの停止、HPCで必要なデーモンやサービスの起動、開発環境などとのマッチング、アプリケーションの動作検証などです。
■ CentOSとRedHat
■ LinuxでのHPCチューニングの必要性
商用アプリケーションなどではLinux OSのディストリビューションを指定されることがあります。そこでRedHatにオプション対応しています。もちろん、コンパイラなどの緻密なバージョン指定にも対応しています。
8CPUコアを搭載するシステムを共同利用する際には、利用効率と利便性を向上させる負荷分散システムの搭載が必須です。そこで、大型のUNIX並列計算機で圧倒的な動作実績を誇るPlatform LSFを標準搭載しています。LSFは適切なジョブスケジューリングを、並列度、CPU負荷、メモリ利用状況、ライセンス状況、他ノードの負荷状況などを考慮したうえで実施します。これらの要素への配慮に関してLSFの完成度は圧倒的な高さを持っており、他のスケジューラとは比較になりません。
最新のハードウェアを利用するには、適切な開発環境の選択と、整然としたインストールが必須です。標準的なインテルコンパイラのみならず、お客様のご用途に合わせてIntel-MPI、Inte-MKL、パフォーマンス・チューニングツール類、PGIコンパイラなどの最適なインストールサービスも実施します。もちろん、ライセンスサーバにも対応します。また、GbEやInfiniBandにも適応した開発環境のカスタマイズも実施します。
8並列計算が可能になったことで、ネットワーク並列では対応できなかった計算の並列度を向上させることができます。また、32GBの大容量メモリを必要とする計算にも対応できます。このような計算環境を要求するアプリケーションの搭載と運用をサポートする予定です。
ディスク障害や誤操作などによりOSが正常に利用できなくなるようなトラブルに際して、OSの復旧を簡単かつ確実に行えるように「OSリカバリDVD」を添付しています。弊社の「OSリカバリDVD」は、弊社工場でお客様に納入する計算機のカスタム設定が完了した時点で、そのシステムイメージをフルコピーするものです。そのため、「OSリカバリDVD」を用いると出荷時の状態に確実に復旧できます。さらに導入後のシステム設定変更やアプリケーション追加をされた場合にも、簡単に新たな「OSリカバリDVD」を作成できるように、簡単なコマンド操作で任意のタイミングの「OSリカバリDVD」のISOイメージを作成することが可能です。
システムには『Dell OpenManage』という総合システム監視/管理ツールが搭載されています。このツールは、計算機本体にとどまらず外部接続されたDASストレージの内部ディスクドライブまで、一元的に監視したり操作できます。また、強力な障害解析機能を持ち、障害箇所が交換部品のレベルにまで細かく切り分けて表示されます。また、障害の履歴も残ります。例えば、メモリがECCエラーとを起こすと、どのスロットのメモリがエラーを起こしたかまで判ります。しかもECCでエラーが自動修復されていても、履歴が残っているので簡単に参照できます、なお、このツールはリモートからブラウザ経由でも利用できます。
HPC-ProServer DPe2900III-Tは2CPU 8並列のHPCサーバとしてのシステム構築が期待されます。そこで、弊社ではお客様の計算機や開発環境、オプションツール類、アプリケーション類などの導入調査などを可能な限り行い、快適な利用環境の実現に努めます。これらのインテグレーション作業をお客様が単独で実施されるには手間と時間が必要です。HPCテクノロジーズはこのようなお客様のご要望に応えるべく対応しています。
一般に大手ベンダー製サーバは市販サーバに比べて量産開始判断が慎重です。実はこのタイムラグこそ品質管理の最後の砦であり、徹底的なバリデーションなどが行われている期間です。全ての問題がクリアされた製品は、生産を一挙に立ち上げることができます。そして弊社工場では実運用レベルのテストと改修を行い、さらに仕上には納入後の動作確認、不具合箇所の特定、迅速なオンサイト改修までを一連の工程として実施しています。
HPC-ProServer DPe2900III-Tは、標準で3年間の当日/翌営業日オンサイト保守が無償実施されます。万一の障害でもお客様の手を煩わせることなく、HPCテクノロジーズの技術スタッフとオンサイト修理スタッフが協力して障害切り分け作業を行い、迅速かつ確実な復旧を実現します。