お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
⇒ プロセッサ番号一覧表
S.B. Xeon Rack Server
DPeR210II 1S 32GB 2HD 価格
DPeR620 2S 768GB 10HD 1U 価格
DPeR720 2S 768GB 16HD 2U 価格
DPeR820 4S 1536GB 16D 2U 価格
S.B. Xeon Tower Server
DPeT620 2S 768GB 32HD 5U 価格
S.B Xeon WorkStation
DPrT1600 1S 16GB 2HD 価格
S.B. Xeon Blade Server
Blade Enclosure DPeM1000e 価格
DPeM620 2S 512GB 2HD 価格
 
Xeon Rack Server
DPeR410 2S 96GB 4HD 1U 価格
DPeR610 2S 192GB 8HD 1U 価格
DPeR710 2S 288GB 8HD 2U 価格
DPeR910 4S 2TB 16HD 4U 価格
Xeon Tower Server
DPeT410 2S 96GB 6HD 価格
DPeT610 2S 192GB 8HD 価格
DPeT710 2S 192GB 16HD 価格
Xeon WorkStation
DPrT3500 1S 24GB 3HD 価格
DPrT5500 2S 48GB 4HD 価格
DPrT7500 2S 192GB 4HD 価格
Opteron Rack Server
DPeR715 2S 512GB 6HD 2U 価格
DPeR815 4S 1024GB 6HD 2U 価格
Xeon/Opteron Blade Server
Blade Enclosure DPeM1000e 価格
DPeM610 2S 192GB 2HD 価格
DPeM610X 2S 192GB GPGPU 価格
DPeM710 2S 288GB 4HD 価格
DPeM915 4S Opteron 512GB 価格
GPGPU System
Tesla C2050 WS (T7500)
Tesla S2050 Cluster (R410/R610)
Tesla M2050 HD Cluster (C410x)
Tesla M2050 Blade (M610X)
Host/File Server (Rack)
FS R410 2S 2TBx4HD 1U 価格
FS R610 2S 1TBx6HD 1U 価格
FS R710 2S 1TBx8HD 2U 価格
FS R510 2S 2TBx12HD 2U 価格
Host/File Server (Tower)
FS T410 2S 2TBx6HD 価格
FS T610 2S 2TBx8HD 価格
FS T710 2S 1TBx16HD 価格
Storage Rack Enclosure
DPvMD1200 DAS 12x3TB HDD 価格
DPvMD1220 DAS 24x1TB HDD 価格
DPvMD32xx RAID 12HD/24HD 価格
DPvMD32xxi RAID 12HD/24HD 価格
⇒ 研究室のストレージ構築法
⇒ インテルコンパイラ価格表

HPC-ProServer DPeR815

理論演算性能単価のスコアが最も高い計算機
AMD Opteron 6200番台 (Interlagos) プロセッサを4個搭載できる2Uサーバ
4個の16コアプロセッサにより64コア機を実現
16GB DIMMを32個搭載することで512GBメモリを実現
16チャネルのDDR3メモリにより205GB/sのメモリバンド幅を実現
2.5インチHDDを最大6台搭載でき3TBのディスク容量を実現
Single Port 10GBASE-TとDual Port 10GBASE-SFP+に対応
3年間のオンサイト保守と技術支援を無償で実施

製品特長 | 基本性能 | システム構築 | 価格 | 仕様 | サポート | カタログ

HPC-ProServer DPeR815 特徴

「HPC-ProServer DPeR815」(以下、R815) は16-core AMD Opteron (Interlagos) を4基搭載することで64 コアの共有メモリ型並列計算機を実現し、最大で589GFLOPSの倍精度浮動小数点演算の理論性能を達成する、研究室レベルで導入できるスーパーコンピュータです。

 この計算機の第一の特徴は、32nmプロセス技術を用いることで、9.2GFLOPSのプロセッサコアを64個搭載し、最大で589GFLOPSの倍精度浮動小数点演算の理論性能を達成していることです。なお、実効性能でも500GFLOPSを越えて来ると期待されています。

 この422GFLOPSという性能は画期的な値です。普及している2ソケット機の理論演算性能は約150GFLOPSです。これまではこの値がネットワーク並列化されていないアプリケーションの理論限界でした。ところがHPC-ProServer DPeR815は値を一挙に420GFLOPSにまで向上させました。ネットワークの壁により並列向上が出来なかった、数値演算ライブラリ並列、OpenMP並列の大幅な高速化が可能になりました。

 しかもこの性能の高さは多くの科学技術計算用アプリケーションによって確認されています。例えばSPECベンチマークテストは実際に17種類のアプリケーションをコンパイルし実機上で動作させた結果を基にしています。SPECベンチマークを実施出来るということはHPC計算機としての必要条件です。また、インテルアーキテクチャ系で動作するアプリケーションは同様に動作するという互換性を持っています。

 2番目の特徴は、メモリ帯域幅の広さです。各プロセッサはDDR3 1333MHzメモリを4チャンネル搭載したメモリシステムを持ち、42GB/s/CPUのメモリ帯域幅を実現しています。このプロセッサを4基搭載することでシステム全体のメモリ帯域幅は170GB/sに達しています。これに対して普及している2ソケット機のメモリ帯域幅は約60GB/sです。そのためネットワーク並列化されていないメモリ速度律速型アプリケーションの高速化は約60GB/sが理論限界でした。ところがHPC-ProServer DPeR815はこの限界値を一挙に3倍近く高速化しました。

 3番目の特徴は、ノード内並列計算で大切なCPU間通信速度の速さです。各プロセッサは25GB/sの帯域幅を持つシステムインターコネクトを3基搭載しており、4ソケット機の場合でも他の3基のプロセッサとダイレツクトに接続することができます。そのため並列度の高い並列計算を行っても低遅延かつ高速な通信が可能となり、高い並列処理性能を実現します。

 4番目の特徴は、最大256GBに達する搭載メモリ容量の大きさです。システム上に32基のメモリスロットを備えているため8GBメモリモジュールを使用することができ、256GBのメモリ容量を廉価に実現することができます。

 5番目の特徴は、本格的なストレージシステムを内蔵できることです。内部には6基のSAS 2.5inch 500GBハードディスクと、PCI Express 2.0に対応した高性能なRAIDコントローラを搭載しています。これら活用して速度と信頼性を両立させたストレージシステムを構築できます。システムの基礎となるシステム領域には高信頼の500GB RAID1を搭載できます。さらにこれから独立して、速度と信頼性を両立させたユーザ領域用の1.5TBのRAID5を搭載できます。内蔵ファイルサーバ構成を実現できます。これら2系統のRAIDシステムを約20万円で追加搭載することができます。

 6番目の特徴は、Linux環境、開発環境、ジョブスケジューラ環境、ネットワーク環境などといったミドルウェアの導入・運用支援をHPCの専門技術者が行っている点です。複雑化する最新のHPC環境をスマートに利用するためには、これらミドルウェアの導入・運用支援を欠かすことはできません。

 7番目の特徴は、環境に配慮した設計を採用していることです。この2Uラックサーバは低騒音設計が採用されていて、タワー型サーバ並みの静かさを保っています。また効率の高い電源を使用することで電力効率にも配慮しています。またシステムを集積させることによるエネルギーロスの低減も効果を発揮しています。約1000Wの電力で400GFLOPSの演算性能、256GBのメモリ空間、2TBのRAID空間を駆動させることができます。消費電力の制約から演算性能の上限に直面されているサイトではMagny-Coursの導入を考える契機になります。

 8番目の特徴は、実装密度の高さです。1UサイズあたりのGFLOPS値は200GFLOPSに達し、24Uラック一基で5TFLOPSに達します。実質的にはブレードサーバを超える実装密度を実現していると言っても過言ではありません。

 9番目の特徴は、手厚いサポートサービスを3年間無償で実施していることです。48コアの並列計算機のみならず、本格的なファイルサーバ機能と管理サーバ機能を複合させた "Super Computing Server" を内蔵しているHPC-ProServer DPeR815には高い保守水準が求められます。そこで、当日4時間のオンサイト保守、障害箇所のオンサイト切り分けサービス、部品先出し保証サービスを3年間無償で行っています。さらに弊社ならではのHPC技術支援サービスにしいても3年間無償で行います。これらの手厚いサポートサービスによって長期間の安定運用をお約束します。

 10番目の特徴は、HPC-ProServer DPeR815の価格の安さです。この計算機は4ソケット機であるにもかかわず従来の2ソケット機並みの価格を実現しています。すなわち2ソケット機と同水準の価格帯において400GFLOPSの浮動小数点演算性能と170GB/sのメモリ帯域幅を持つ計算機を実現したことは画期的なことです。

 以上簡単に説明しましたように、HPC-ProServer DPeR815は、スパコン水準の並列計算機と、本格的な管理サーバ機能の両方を内蔵した、オールインワン型の "Super Computing Server" です。しかも並列計算機部分はPCクラスタとUNIX並列計算機の長所を併せ持った素晴らしい環境を実現しています。そして今後はさらにマルチコア化が進み64コアでの800GFLOPS機、さらに1TFLOPS機に進むと考えられます。HPC-ProServer DPeR815はこれまでのネットワーク並列機を主体とした構成から、ノード内並列とネットワーク並列が共存する計算機環境への転換点となります。

AMD Opteron (Magny-Cours) プロセッサの特徴を解説

 予備知識としてAMD Opteron (Magny-Cours) の基本構造を理解していただくことにします。そこで以下に簡単な模式図を作成しました。

 最初に図の左上を見てください。1個だけ違う絵があります。これはMagny-Coursプロセッサの内部を示したものです。これを見ると、Magny-Coursは前世代の6-core Opteron (Istanbul) 2ソケット計算機をひとつのCPUパッケージに封止することでコア数を倍増させ、そのうえでデータI/O関連のデバイスを刷新しボトルネックに備えた構造を持っていることがわかります。

  またMagny-Coursは、従来のDDR2 800MHzメモリをトリプルチャンネル接続した設計から、新たにDDR3 1333MHzメモリをクワッドチャンネル接続した設計へとメモリシステムを刷新しています。その結果プロセッサのメモリ帯域幅は従来の12.8GB/sから42.6GB/sへと、4ソケットシステム全体では51.2GB/sから170GB/sへと3.33倍の高速化しています。この改良によりOpteronの課題であったメモリ性能律速アプリケーションの高速化を実現ています。

 さらにプロセッサ間を接続するハイパートランスポートは、従来の8.0GB/s x2から新たに25.6GB/s x4へとアップグレードしています。この改良により沢山のコアが並列動作する際に発生する多くの通信処理を高速に処理することを可能にしています。

 

 比較対象として従来のIstanbulプロセッサの模式図も作成しました。上下の図を比較すると違いがよくわかります。CPU性能は約2倍に、メモリ性能は約3.3倍に、システムインターコネクト性能は約5倍になっています。この理論性能の向上が実効性能の向上にもストレートに反映されています。

 

Magny-Coursの理論性能と実効性能の関係を調査

 では実際のアプリケーションを動作させた場合の実効性能は理論性能に応じて発揮されているのでしょうか。その点をSPEC fp 2006の結果データを引用して作成したグラフによって確認します。赤色で示したグラフは「CPU性能律速型アプリケーション」についてのもの、青色で示したグラフは「メモリ律速型アプリケーション」についてのものです。

 グラフを見ると、赤色で示した「CPU性能律速型アプリケーション」では、最新のOpteron (Magny-Cors) 4CPU機は、前世代のOpterons (Shabghai / Istanbul) 4CPU機と比較すると約2倍の性能向上をしています。理論性能どおりの実効性能です。

 また、青色で示した「メモリ律速型アプリケーション」では、Opteron (Magny-Cors) 4CPU機は、Opterons (Shabghai / Istanbul) 4CPU機の約3倍の性能向上を達成しています。こちらも理論性能どおりの実効性能です。

 このように、新Opteron (Magny-Cours) は上のブロック図で示された理論性能と、実際の科学技術計算機で用いられるアプリケーションでの実効スループット性能はよく一致しています。

 また参考として、グラフの右側に旧Xeon 4CPU機と最新Xeon 4CPU機によるグラフも追記しました。Xeon 4CPU機は前世代と現世代ではアーキテクチャが変更されメモリ性能が8倍に高速化され、その効果が確認できます。最新のOpteron 4CPU機とXeon 4CPU機は構造が近くなり、その成果がスループットに反映されています。

 

Magny-Coursでのクロック速度別コストパフォーマンス調査
(CPU律速メモリ律速共に32コア機より48コア機の方が良い)

 計算機の選定においてCPUクロック速度別かつメモリサイズ別のコストパフォーマンスの概要を知っていることは重要です。そこで次のグラフを作成しました。これは上記グラフからOpteron (Magny-Cours) 4CPU機の部分を抜粋し、そこに価格の変化を表すグラフを追記したものです。基準機は同じくMagny-Cours 2.2GHz機でこれを100%としています。

 グラフを見ると、「CPU性能律速型アプリケーション」は12コア・プロセッサなら2.2GHzでも2.1GHzでも良いようです。しかし8コア・プロセッサは良くありません。「メモリ性能律速型アプリケーション」も12コア・プロセッサが良いようです。クロック速度は2.1GHzでも問題が無いようです。極論すれば1.9GHzでも大丈夫です。しかしコア数は必要です。

 例外的に8コア・プロセッサでかつ2.0GHzでも良かったアプリケーションはsphinx3、leslie3d、GemsFDTDでした。

 意外であったことは、8コア・プロセッサでクロック速度の速いMagny-Cours 6136 2.4GHzの適性です。クロック速度がもう少し頭抜けていれば別ですが、2.4GHzでは用途が限られると思われます。

 

2CPU機の価格で48コアを実現するOpteron (Magny-Cours)

 次の図はアーキテクチャの異なる2CPU機すなわち、Westmere-EP との性能を比較しています。HPC-ProServer DPeR815は価格的には2ソケット機と同水準の計算機ですからこの比較にも意味があります。

 最初に2CPU機同士の比較を行うと、Magny-Coursはアーキテクチャが改良されメモリ性能が向上したことで、Westmere-EP 2CPU機と同じような性能特性を示すようになっています。しかしMagny-Cours 4CPU機の価格はWestmere-EP 2CPU機の価格と重なりますから4CPU機と2CPU機の比較もみてください。「100%増量セール」という感じになっています。

 なおここで見ていただきたい点がもう一つあります。それはWestmere-EPの実効性能効率の良さです。右端のグラフの赤い太い破線はWestmere-EPの理論CPU性能をあらわしています。これと実効性能を比べると約30%も高い性能を示しています。Westmere-EPでの「CPU性能律速型アプリケーション」は処理効率が高いのです。

Magny-Cours 48core と Westmere-EP 12core の特性の違い

 次のイラストはMagny-Cours 4CPU 48core と、Westmere-EP 2CPU 12core のスループット性能での特性の違いをイメージしやすいように模式図にしたものです。イラストの左側はMagny-Cores 48coreによって48個の計算を平行動作させた場合のスループット量を表しています。右側はWestmere-EP 12coreによって12個の計算を平行動作させた場合のスループット量を表しています。Magny-Coresの処理能力の大きさと、Westmere-EPのピーク性能高さがよくわかります。両者は同クラスの価格帯にありまから、どちらを選択すれば良いのかは悩ましいところです。

 

Magny-Cores 48cとWestmer-EP 24c はどちらが良いのか ?

 Magny-Cours 48coreと、Westmere-EP 24coreはどちらにも長所と短所があります。クラスタで処理する計算の中には非並列処理も含まれています。これらには高速なコアを使った計算が必要です。また大量の平行処理や並列処理が必要な場合は、少し低速なコアでも良いので多くのコアが必要です。次のイラストのように片方だけでクラスタを構築すると特性に片寄りがでることになりロスの原因となります。

 

2種類のアーキテクチャを搭載したハイブリッド型クラスタは
コストパフォーマンスと高い性能を両立

 この特性の片寄りを解消するための妙案があります。それがMagny-CoursとWestmere-EPの両方を搭載したハイブリッド型のクラスタを採用することです。クラスタ内部に2種類のアーキテクチャを搭載することで、用途に応じたアーキテクチャを選択してジョブを投入することができます。すなわちシリアルジョブのピーク性能を必要とする場合はWestmere-EP 3.3GHzにジョブを投入し、大きなスープットを求める場合はMagny-Cours 2.1GHzにジョブを投入することのできる構成です。

 このような構成のクラスタを構築する場合に重要なポイントは、「AMD Opteronはインテルアーキテクチャに対してバイナリー互換である」という特性を備えていることです。この点を活かすと、双方で同じバイナリを利用することができ汎用性が高くなります。標準の開発環境には業界標準であるIntel Compilerを推奨します。こうすることで、Westmere-EPのトップスピードを引き出すことができ、多くのアプリケーションはIntelコンパイラ用のMakefile開発環境を持っているのでコンパイラの互換性に関する問題を封印することもできます。

 HPCクラスタはジョブスケジューラを搭載しているので、キューの設定によってジョブを最適なノードに自動投入させることができます。ユーザはアーキテクチャの違いを意識する必要はありません。下のイラストはこの考え方に従って構成されたラック搭載型システムの完成予想図です。

 

  

高速システムインターコネクト

 プロセッサとプロセッサの間を接続する内部システムインターコネクトは並列計算効率を高めるうえで大切なデバイスです。新Opteron (Magny-Cours) ではこの内部システムインターコネクトも刷新されています。従来の8.0GB/s 2ポートによる16GB/sの性能から、25.6GB/s 3ポートによる76.8GB/sの性能へと約5倍に高速化しています。ポート数を増やしたことで4基のプロセッサの相互接続をどの方向についても直接接続が可能となり、低遅延かつ高帯域の通信を実現しています。そのため48並列処理でも高い並列化効率での動作を達成しています。

 次のグラフは48コアを搭載したAMD Opteron (Magny-Cours)でのLinpack HPLベンチマークテスト結果です。今回行ったテストのユニークな点は、常に48コアを利用した状態で、並列度は増加させ、平行度は減少させ、速度を測定している点です。すなわち( c ) の非並列かつ48平行では並列処理オーバーヘッドは発生せず、そこから並列度を上げる従って並列オーバーヘッドが増加してゆくことが分かります。

 ( c ) と ( d ) の差異 は「OpenMPI並列による48並列非平行処理」を行った場合の「通信処理 + 非並列処理」のオーバーヘッドです。48コアをフルに動作させ300GFLOPSを超える演算処理を行い多くのメモリI/Oしか発生している場合でも「通信処理と非並列処理」のオーバーヘッドはそれほど大きくはありません。これはCPU上の高速メモリシステムと高速システムインターコネクトの接続ポートが独立して動作しているからです。新Opteron (magny-Cours) はスループット性能が高いだけではなく、並列性能も高いことが確認されました。

 (その他の説明)
 ( a ) は理論性能です。すなわち2.2GHz x 4命令同時実行 x 48コアによって得られる422GFLOPSを表しています。( b )は理想性能です。すなわち、1つのコアのみを動作させた場合の速度である7.7GFLOPSをコアの実理想性能と仮定したうえで、その理想状態で48コアが平行に動作した場合の速度 7.7GFLOPS x 48コアによって得られる370GFLOPSを表しています。( c )は48コアの全てにシリアルジョブを割り当て実際に48平行処理させた場合の計測値である354GFLOPSです。コンパイラはgcc、数値演算ライブラリはACML4.4.0を使用しています。

 気になる点は( a) と ( b )の差異です。Westmereはこの差異が小さいのです。そのため理論性能だけで双方を比較する場合にはこの差異を組み込んで評価しておく必要があります。しかしこれは些細なことです。本質は約130万円の計算機が48コア並列処理によって300GFLOPSを実際に達成したことです。

170GB/sの高速メモリシステム

 48コアを高速動作させるためにはメモリシステムも高速である必要があります。新しいAMD Opteronプロセッサは、従来のトリプルチャンネル接続されたDDR2 800MHzメモリによる12.8GB/sの性能から、クワッドチャンネル接続したDDR3 1333MHzメモリによる42.6GB/sの性能へとメモリシステムを高速化させています。したがって「メモリ律速型のアプリケーション」は約3倍程速くなっていると期待できます。先に掲載したグラフと同じもので恐縮なのですが、このグラフ中の青い線がメモリ性能についてのテスト結果なので確認をお願いします。

 前世代のOpteron (Istanbul) による4ソケット機のメモリ速度は51GB/sでした。これが新Opteron (Magny-Cours) では170GB/sなっています。この違いを表しているのが青色の太い破線で示したグラフです。これに対して実際のアプリケーションはどのように反応しているのでしょうか。グラフを見ると、Magny-Coursの12コア版のプロセッサを4基搭載したシステムでは約3倍高速な結果が得られています。しかし、8コア版のMagny-Coursの方は少し性能の出方に課題があるような印象です。CPUのクロック速度の影響よりもコア数に影響されているようです。断定はできないのですが、170GB/sのメモリ性能を活かすためには12コア版のプロセッサを選択する方がよさそうです。

 このグラフをもうすこし具体的に利用してみます。例えば気象関連で利用者の多い wrf に注目すると、旧OpteronはDDR2メモリを利用してCPUあたり12.8GB/sのメモリ帯域をもち、この性能が計算速度を決定していました。しかし新OpteronはDDR3メモリを採用しチャンネル数を増やしCPUあたりのメモリ帯域が42GB/sへと約3倍の高速化を実現しています。wrf のグラフを見ると概ね理論性能通りの性能が出ています。また、12コアCPUの方がスループットが良いこともわかります。クロック速度の影響は小さいようです。価格性能比を考慮すると wrf はMagny-Coursが良いことがわかります。

最大256GBの大容量メモリ

 48個のコアを搭載していると、利用メモリも大きなサイズが求められます。コアあたり2GBのメモリを利用するなら全体では128GBのメモリを、4GBを利用するなら256GBのメモリを必要とします。これに対応できるように32基のメモリスロットを備えており、廉価な8GBメモリモジュールを利用して256GBのメモリ空間を実現しています。

 大容量メモリを搭載する計算機は僅かなメモリの不安定さでもユーザジョブの処理に大きな影響を与えます。HPC計算では通常の利用では考えられない大容量のメモリを搭載し、しかも激しく連続したメモリアクセスが発生します。そのためメモリモジュールの冷却は大切です。HPC-ProServer DPeR815は写真のようにヒートスプレッダーを装着したメモリモジュールを搭載したうえで、空気ダクトを装着して効率の良い冷却を実現しています。

 また、徹底的したメモリモジュールの品質管理を行い、万一の故障時にも当日4時間という迅速なオンサイト保守を行います。さらに、部品先出しサービス、障害部品オンサイト切り分けサービス、予防部品交換サービスなど、万全の保守体制を敷いて安定したシステムの稼働を実現しています。システムインテグレーションに於いて基礎コンポーネントの選択はシステムの品質の良否を決定する重要なポイントです。弊社は世界のトップブランド企業が生産とサポートに責任を持つハードウェアを採用することで、世界基準のシステム品質をお届けしています。

 もちろん、お届けする計算機は弊社工場内で長時間のエージングを行い不具合箇所の洗い出しと部品交換を行っています。さらに導入していただいた後も技術・運用支援を3年間に亘って無償で実施することで、お客様の手間と時間のロスを最小に抑えています。

 

超高速ストレージの搭載

 サーバの内蔵ストレージは随分と良くなっています。それを支える基本デバイスを3種類ご紹介します。最初はRAIDコントローラです。最新のRAIDコントローラはシステム側のデータ転送性能の向上とPCI Expressが2.0になり転送性能が倍増したことで、高い実効性能を発揮するようになっています。さらに、SASインターフェースも6Gbps対応が標準的になっています。これら、データパス全体に亘っての高速化により1GB/sを超える実効転送性能が得られるようになっています。

 2番目はSASディスクです。最近では2.5インチドライブの大容量化が進み10000回転の300GBディスクが搭載できるようになっています。このドライブは100MB/sを超える実効転送転送を持つので5基をRAID0化することで500MB/s級の転送性能を達成することができます。また、容量が必要な場合には500GB 7200回転のディスクが搭載できます。RAID5で利用すると4基で1.5TBのストレージを実現できます。

 3番目はSSDドライブの低価格化と大容量化が進んでいることです。SSDドライブはランダムアクセスに対する応答速度がずば抜けていますから、多数のGaussianジョブを平行動作させてスクラッチファイルを利用している場合などに大きな効果が期待されます。100GBのSSDドライブ5基によって500GBのスクラッチディスクが構築できます。

高信頼かつ高速な内蔵ストレージの構築

 1基の筺体に48コアと256GBのメモリを搭載できるので、スタンドアロンでも共同利用環境として十分な能力を持ちます。その場合は専用のストレージを内蔵する実装は検討に値します。あるいは、ファイルI/Oが多いアプリケーションを運用される場合はファイルの同期の問題さえ解決できるのなら、ローカルストレージの利用も1つのスタイルと考えることができます。

 幸いにも2.5インチディスクの大容量化が進んだ結果、500GB 7200回転ドライブを利用することがてきます。本計算機には最大で6基のドライブを搭載することができます。そのうちの2基はシステム領域としてRAID1化して利用します。そのためストレージに利用できるドライブは4基となります。500GBのドライブを利用するとRAID5構成では1.5TBの領域を実現できます。このボリュームはネットワークを介さないので200GB/sを超える性能を容易に実現することができます。

業界標準の開発環境

 次に業界標準の開発環境であるIntel Compilerを搭載することで他のプロセッサとの互換性があり安心です。

ジョブスケジューラの搭載

 48個のコアを複数のユーザが公平かつスムーズに共有するために必須のジョブスケジューラをサポートしています。

圧倒的なコストパフォーマンス

 「HPC-ProServer DPeR815」は大並列により超高速並列処理を目指すタイプの計算機ではありません。この計算機は圧倒的なコストパフォーマンスを誇る48個のCPUコアの存在を基礎として、高速かつ潤沢な共有メモリ空間上でコーディングの負荷が比較的低いOpenMP並列や数値演算ライブラリを用いた並列計算を行ったり、ネットワーク負荷が大きくてこれまでのGbEネットワーク並列計算では性能を得ることが難しかったアプリケーションをInfiniBandを利用することなく廉価な高速化を行ったりすることができる、利便性の高い計算機システムです。

クラスを超える低騒音設計 (78dB)

 最新のラック型シャシは騒音化が進んでいます。これは冷却システムの工夫によりものです。熱源であるCPUとメモリを導風板 (シュラウド) でスッポリと覆うことで冷却効率を高め、前面投影面積を稼ぐために大型のヒートシンクを採用し、ヒートパイプを用いてCPUの発熱を効率良くヒートシンク全体に拡散させています。さらに低速で回転しても十分な流量を確保できる大口径・高効率・低騒音ファンを6基採用しています。しかも、このファンを筺体の中央部に搭載することで外部への騒音の漏れを少なくしています。これらの要素を組み合わせることで非常に静かな2Uサーバを実現しています。この仕組みをイラスト化しました。

 次にその実装を実機で確認します。写真左の黒いカバーが導風板です。この導風板はヒートシンクの外形に合わせることで冷気が無駄なく導かれます。真中の写真は、ヒートパイプ式のヒートシンクが写っています。ヒートパイプを採用することで前面投影面積の拡大と放熱効率を向上させています。またメモリモジュールにもヒートスプレッダ (放熱板) 取り付け放熱効率を向上させています。一番右側の写真には6連装の大口径・高効率・低回転ファンが写っています。ファンの回転数は筺体内に搭載した温度センサによりリアルタイムで制御し騒音の発生を最小限に抑えています。また騒音源であるファンを筺体の中央に搭載することで音が外部に漏れることを防いでいます。さらにファンはフローティングマウントされています。しかも筺体には剛性が高く重量のある外板を採用し共振を抑えています。実はサーバの騒音源として共振による筺体表面から発生する音も少なくないからです。このように徹底した騒音対策によってタワー型サーバに迫る低騒音化を実現しています。また、ヒートパイプ方式は回転部品を持たないので高い耐久性を持ちます。しかも冷却ファンは冗長化構成を採用し、ホットスワップに対応しているため無停止での運用が可能です。

 このように、オーソドックスな手法を洗練させラックマウント筺体の低騒音化を実現したことで、システムの信頼性や保守性を犠牲にしていません。それどころか、冷却性能はもとより保守性や信頼性をさらに向上させています。

 これに対して他の液冷方式としてはパソコンやワークステーションで利用されることのある水冷方式はどうでしょうか。この方式の課題は冷却水をポンプで何年間にもわたり無停止で循環させなければならないことです。そのため耐久性に富んだポンプが求められます。もしポンプが故障すると交換作業に時間がかかり、センドバック方式の場合は長い運用停止期間が発生するので注意が必要です。

 

当日4時間オンサイト修理

 クラスタの場合は計算ノードがのうちの一台が故障しても、マスターサーバがシステム全体の稼働を守っている限り、障害の影響は局所的なものに抑えられます。しかし、この48コア機は32枚のメモリと6基のハードディスクを搭載しているうえ、スタンドアロンで動作することを前提しているため、小さな障害でもシステム全体の運用に直結します。特に共同利用している場合は、短時間のシステムの停止でも大きな迷惑が発生します。そこで「HPC-ProServer DPeR815」はマスターサーバと同水準の「当日4時間オンサイト保守に部品先出しサービスと障害現地切り分けけービスを追加してご提供しています。