お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内

HPC計算機導入事例

ファイルサーバ導入事例 (抜粋)

Gaussian導入事例 (抜粋)

【HPC導入事例】2009Q3導入事例

ナノ材料研究拠点で導入された高速・高信頼性の計算機

「ナノ材料」の研究で量子化学計算を利用

 エネルギー問題や環境問題の解決に貢献することが期待される「ナノ材料」の研究開発が注目されています。お客様は国内有数の「ナノ材料研究拠点」において量子化学計算を用いた新素材の研究を行うため招聘された研究者の方です。研究を開始するに際して実践的なHPCクラスタの導入を希望されていました。

計算機のテスト導入

 「ナノ材料研究」という明確なミッションを持つ研究で利用する計算機は机上の性能が高いだけでは許されません。大規模計算への対応、高速並列計算の実現、管理サーバ系の高い完成度、計算機システムの安定稼働、良いサポートの実施など、実践的HPC計算機としての総合的なバランスが求められます。しかしこれらすべての評価を間接的に行うことは不可能てす。そこで本格的なHPCクラスタの導入に先立ち、単体計算機を試験的に導入することで、目的とする計算を行う際に必要な要件を確認されるともに、基本品質やシステムインテグレーション水準、サポート体制なども直接確認されました。

テスト導入されたHPCワークステーション

t5500 将来のHPCクラスタのプロトタイプとしてお客様が試験的に導入された計算機は右写真に示したワークステーションタイプの「HPC-ProServer DPrT5500」でした。この計算機はXeon (Nehalem) 2CPU 8コア 12GBメモリ 250GBシステムディスクという構成です。導入された時期は2009年春であり、ちょうど新しいXeon (Nehalem) プロセッサが発売された直後であり、このプロセッサに期待を持たれて導入されました。

Xeon (Nehalem) の高い並列性能を確認

 新しいXeon (Nehalem) プロセッサの大きな特徴は各プロセッサ上にメモリコントローラを搭載し従来の3倍にも達する広いメモリ帯域を持ち、さらにプロセッサ内の4個のコアが8MBのキャッシュを共有することで、非常に高速なメモリI/Oを実現していることです。その結果これまでのXeonの課題であった"メモリ律速"型アプリケーションにおいての8コア全てが並列動作した際の処理効率の低下という問題が解消されています。実際にお客様が利用されるMPI化された量子科学計算アプリケーションソフトをHPC-ProServer DPrT5500で動作させると高い並列性能を発揮したそうです。

高い品質を確認

 HPC-ProServer DPrT5500は最新鋭のデル社「アモイ工場」で生産された高品質ワークステーションをベースに採用しており、一度でもご利用していただければその完成度の高さに納得していただけます。さらに、HPC計算機構築に深い経験を持つ弊社がHPCインテグレーションを行い、高い完成度のHPC計算機に仕上げています。今回の試験導入においても、お納めした直後から商用の量子科学計算アプリケーションソフトが稼働し、その後もノントラブルで安定動作しつづけているそうです。

HPCクラスタの提案

お客様のご希望

24u お客様が実施される計算は、MPIで並列化されたアプリケーションを用いた大規模並列計算と、大規模Gaussian Jobの高速処理の2種類が主であり、これらを効率よく処理できるシステムを希望されていました。

 また、快適にシステムを運用するため、高速ファイルサーバを採用し、信頼性の高いデータバックアップシステムを組み込み、堅牢な管理ノードを搭載し、これら全体をコンパクトにラック搭載することを希望されていました。

3部構成で提案

 そこで、計算機システム全体を3種類の機能モジュールに分解し、マルチクラスタ構成としています。それら全体を10GEアップリンク対応のGbEスイッチで接続し、取り扱いの容易な24Uラック2基に内蔵させるシステムをご提案しました。

 クラスタを目的別に最適化設計することで、最大のパフォーマンスと信頼性を最小のコストで実現しています。その結果として面倒になるシステム管理は、強力な管理サーバやファイルサーバを導入し自動化を進めることで解消しています。

MPI並列アプリケーション用の大規模並列処理部

 MPI並列アプリケーション用のクラスタはXeon (Nehalem) 2ソケット構成のブレードを最大16台まで搭載でき、QDR InfinBand スイッチに対応しているブレードサーバを提案しました。このブレードサーバは著名ブランドの製品であり、世界中で豊富な導入実績を持ち、初めての導入でも安心して採用していただけます。

大規模Gaussian計算処理部

 大規模なGaussianジョブ用のクラスタはXeon (Nehalem) 2ソケット構成の1Uサーバを採用しています。構成の特徴としては、Gaussianなどのスクラッチファイルを必要とするアプリケーションの挙動に配慮し、2.5インチ 15000rpmの高速ハードディスクを4基用いてRAID0を構成し、400MB/s水準の超高速スクラッチディスクを全てのノードに内蔵するように仕上げていることです。この計算機を8台搭載しGaussianに特化した高性能クラスタを構成しています。

高速ファイルサーバ部、データバックアップサーバ部

 ホスト機には拡張性能高い5Uサーバを採用し、高速かつ高信頼のRAID6ストレージを内蔵し、アップリンク用として高速な10GBASE-Tを搭載し、NFSサーバとして高速動作を実現させています。

 さらにシステムの可用性を高めるためバックアップサーバには単独でファイルサーバとしての利用にも耐える高性能な2Uサーバを採用しています。こちらは高速なRAID5ストレージと10GBASE-Tの構成となっています。

 2台のサーバ間は10GBASE-Tで接続されており10GbEを利用した高速バックアップ処理を実現しています。また、独立したバックアップサーバを持つことで万一ホスト機に障害が発生し一時的に運用が停止した場合でも、バックアップサーバ側のデータを継続的に利用することが可能で、高い可用性を実現しています。

高速スイッチ

 48ポートのGbEポートを持つスイッチに10GBASE-Tポートを2個追加搭載したスイッチを採用しています。ファイルサーバとバックアップサーバはファイルI/Oを高速化するため10GBASE-Tで接続しています。

基幹システム部はUPS接続

 ホスト部のサーバ類やスイッチ類などの基幹システム部はUPSに接続しており、万一の停電にも貴重なデータ電源障害から守っています。

ラック搭載

 全体は2台の24Uラックに分散して搭載し、取り扱いやすさと、安全性の高さを実現しています。マルチコア化されたことにより、計算機内部の実装密度が向上しているため、過激な高密度実装を追及するよりも、扱いやすさを優先しています。

高いレベルのサポートを提案

 大手ベンダー製のハードウェアを採用することで高水準のハードウェアサポートが得られます。特にデル社の製品は、製品種を絞り込むことで長期間にわたり高品質な保守パーツを迅速にデリバリーできる体制のを整え、世界展開されるオンサイト修理網と組み合わされれ、良質なサポートが実現されています。この良質なハードウェアサポートに加えて、弊社の高度な技術サポートが加勢することで、良質の専門的サポートを提供できます。

ブレードサーバによるMPI計算機部

HPC Blade Server: DPeM610 10node
(Xeon 2CPU 8core 24GB_RAM QDR_InfiniBand GbE)
Network: QDR_InfiniBand 32port SW
Utility : 24U_RACK

堅牢な高速並列計算機Blade Server

 Blade Serverの長所は実装密度の高さだけではありません。より大きな長所として、共有バックプレーンの採用によるシンプルなネットワーク接続の実現と、電源部や冷却機構の共有化で実現される堅牢さなどを挙げることができます。大規模な並列計算ではシステムの長期安定稼働は必須条件ですから堅牢なBlade Serverは良い選択です。

Xeon 2CPU Blade Server 10node

 右写真のラック下部に搭載しているBlade Serverは最大で16台のBladeモジュールを内蔵できます。今回のシステムは最初は10台のBladeモジュール搭載で運用されます。さらに後の必要に応じて最大16台までノードを追加することができます。

24GBのメモリ搭載

 各Bladeモジュールは24GBのメモリを搭載しており大規模なGaussian並列計算に対応できます。さらに6基のメモリスロットが空いているので、24GBあるいは48GBのメモリ容量を追加搭載することが可能です。

QDR InfiniBand接続

 Blade Serverは専用の32port InfiniBandスイッチを背面に内蔵しており、ブレード筺体内での高速なInfiniBand通信を実現しています。さらに外部に16ポートの接続ポートが実装されており、必要に応じて複数のブレード筺体間をノンプロっキング通信させることも可能です。

高品質なハーフサイズブレード

 左写真はシステムに搭載しているハーフサイズのブレードです。その基本設計は金融機関等のエンタープライズ級サーバとしての運用にも耐える水準を誇ります。よく比較されるHPC専用のノーブランド品とは似て非なる品質です。

3年間の当日4時間オンサイト保守

 大規模並列計算を行うInfiniBandを搭載したBlade Serverは、負荷の高い計算を長時間動作させるため部品の消耗に対するケアも考えておく必要があります。計算機には標準で3年間の翌営業日オンサイト保守サービスが付属しており、万一の障害でも迅速な復旧が期待できます。さらに、最長5年間までの保守の延長が廉価に行えます。

量子化学計算用の計算機部

HPC Cluster: HPC-ProServer DPeR610 (1U) 8node
(Xeon 2CPU 8core 24GB_RAM RAID0_280GB GbE)
大規模量子化学計算の高スループット処理を実現

Xeon 2CPU 1U Server 8台

 右写真のラック上部に搭載されている8台の1Uサーバが大規模量子化学計算用の高速処理システムです。Gaussianの8並列処理ジョブを同時に8個投入し平行に処理させることができます。

Xeon (Nehalem) 2CPU 8core 24GB_RAM 

 並列計算処理効率が向上した新Xeon (Nehalem)ではGaussianのノード内並列計算が高速化されています。コストパフォーマンスを考慮し、CPUのクロック速度は2.40GHzを選択しています。

24GBのメモリを搭載

 各ノード毎に24GBのメモリを搭載しており、並列度が高く大規模なGaussian計算にも対応できます。

280GB RAID0 (2.5inch 15krpm SAS 73GB x4)

 大規模なGaussian計算を高速に実行させるためには高速なスクラッチディスクの搭載が欠かせません。そこでシステムには、2.5inch 15krpm SAS 73GBディスクを4基用いてRAID0化した280GBの高速スクラッチディスクを各ノード毎に搭載しています。

3年間の翌営業日オンサイト保守

 負荷の高い計算を長時間動作させる計算機では部品の消耗に対するケアも考えておく必要があります。計算機には標準で3年間の翌営業日オンサイト保守サービスが付属しており、万一の障害でも迅速な復旧が期待できます。さらに、最長5年間までの保守の延長が廉価に行えます。

管理サーバ部

Host Server: HPC-ProServer DPeR710 (5U)
(RAID6 3TB, Xeon 2CPU, 12GB_RAM, 10GbE)

Backup Server: HPC-ProServer DPeR610 (1U)
(RAID5 3TB, Xeon 1CPU, 4GB_RAM, 10GbE)

Network: 10GBASE-T x2, 1GBASE-T x48
Utility : KVM, UPS, 24U_RACK

管理サーバ部の概要

 右写真はラックに搭載しているホスト系サーバ部のフロントカバーを取り外した部分のみをクローズアップしたものです。上部が2Uサーバを用いてRAID5 3TBストレージを搭載したバックアップサーバです。真中が5Uサーバを用いてRAID6 3TBを搭載したホストサーバです。下部が10GBASE-T 2ポートのアップリンクを備えた48ポートのGbEスイッチです。

 管理サーバはファイルサーバとして機能するのみならず、開発環境やアプリケーションを搭載し全体に共有サービスを提供する機能、ログインノードして機能しユーザアカウントを管理する機能、ジョブスケジューラのホストノードとしての機能など、複雑になるHPCクラスタを快適に利用できるようにする多彩なサービスが動作しています。

速度と信頼性を両立したホストサーバ

 ホストサーバには5Uサイズの大型筺体を持ち多くのデバイスを余裕で搭載できるラックマウントサーバを採用しました。ストレージ部には6基の1TB SAS 7200rpmディスクを用いて、高い信頼性とI/O性能を両立させるハードウェアRAID6+スペアディスク構成を構築し、高い信頼性を持つ3TBの実効容量を実現しています。スイッチへのアップリンクには高速な10GBASE-Tを採用し、演算ノードからの高いI/O要求にも余裕で対応するネットワークを構成しています。

10GbE世代に対応する高速性なRAID6

 50MB/sから100MB/sのネットワーク転送速度を持っていたGbEでは、RAIDの速度がボトルネックとなることはありませんでした。そのため信頼性を重視したRAID10こそが最も手堅い選択でした。しかし、数百MB/s級のネットワーク転送速度を実現する10GbEの性能をフルに発揮させるためにはより高速でなおかつ高信頼性のRAIDが必要です。

 幸いにもRAID6は利用が盛んになってから年月を重ねており円熟したRAIDポリシーとなっています。さらに弊社では"PERC6"と呼ばれるRAIDコントローラを一貫して採用しており至極安定して動作しています。この安定動作を土台としてこそ、RAID6のストライプを活かした高速I/Oが威力を発揮し、10GbEの本来の性能を活かすことでしょう。

万全の備えを実現する独立したバックアップサーバ

 バックアップサーバはホストサーバから独立したサーバを用いることで、万一ホストサーバが障害を起こしRAIDの復旧に時間を要する場合でも、蓄積しているファイルにクライアントから即座に直接アクセスできるため、仕事への影響を最小限に抑えることができます。そのため、こちらのRAID構成はRAID5でスペアディスク無しの構成を選択しています。また、CPUも1CPU 2コア構成で、メモリも4GBと必要最小限の構成です。しかしネットワークは10GBASE-Tを採用しており、システムアーキテクチャも高速なネットワーク処理を実現するXeon (Nehalem)プロセッサを採用しており、ファイルI/O速度での妥協はありません。

電源やシステムディスクは冗長化済み

 ホスト系の計算機では電源やシステムディスクなどの冗長化は必須です。このシステムでも冗長化電源のみならず、システムディスクもRAID1構成を搭載しており、万一のシステムディスクの障害でも、運用に支障が現れることはありません。

10GbE高速ネットワーク

 これまで16〜32ノード級のクラスタで採用するネットワークはGbEが一般的でした。しかし、CPUの高速化とマルチコア化が進んだ結果16〜32ノード級のクラスタの処理性能が大きく向上しました。さらに搭載メモリも大容量化し取り扱うファイルサイズも大きくなっています。そこで、スイッチのアップリンクに10GbEを採用しています。GbE接続された複数のクライアントからのI/O要求を高速処理できます。その際にはファイルサーバに搭載されている12GBの主メモリも高速なライトキャッシュとして機能し、一時的なディスクI/Oの混雑を緩和させます。

バックアップも10GbE経由で高速

 スイッチは2ポートの10GbEポートを持ち、ファイルサーバとバックアップサーバの双方を10GbE接続可能です。そのため、特に高速なネットワーク性能が求められるバックアップ通信時に威力を発揮し、高速なバックアップを実現させます。

UPSの搭載

 UPSを搭載しており、万一の停電時にも、ホスト系システムの安全なシャットダウンを行えるようにしています。正常終了させることで、再起動時にも迅速なシステムの立ち上げが可能となります。UPSはファイルサーバ、バックアップサーバ、ネットワークスイッチを接続しています。

ファイルサーバは当日4時間のオンサイト保守

 管理サーバ系では充実したサポート体制の提供が大切です。そこで、最も高い信頼性が求められるファイルサーバについては3年間の当日4時間のオンサイトサービスとしたうえで、修理部品の先出しサービスと障害箇所の現地切り分けサービスも加えており、迅速かつ確実な復旧を可能としています。ネットワークスイッチとバックアップサーバについては翌日の部品交換サービスとしています。また保守機関は最長で5年間まで延長できます。

システムインテグレーション

 計算機に精通されたお客様であっても、完成度の高いHPCクラスタの構築を希望されるのであれば、ハードウェア組立からシステム構築までの諸作業は、HPCクラスタ構築の専門業者に一任することをお勧めします。

安心のALL DELL構成

 お客様のご要望に柔軟にお応えするためには選択肢の広いノーブランドPCによるシステムが良いに決まっています。しかし、予測できない相性問題やサポート資源不足などの課題が大きく、導入するには覚悟がいります。

 それに対して、全てのシステム構成要素にDELLの純正品のみを用いた「ALL DELL」の考え方でシステムを構築すると、上記のような問題は原理的に発生しません。全ての構成部品DELLのテストラボで組み合わせた状態でテストされて相性問題を解決してから製品化されています。

 サポートに関しても個々サーバやスイッチ単独のみならず、接続された状態での不具合に関しても対応を受け付けてくれるため、マルチベンダーで問題になる複合的なトラブルで責任の空白地帯が発生しません。 

ハードウェア組立とテスト

24u HPCクラスタ構築の専門工場にて経験を積んだエンジニアが丁寧にシステムを組み上げ、完成度の高いHPC計算機を完成させます。さらに構築時に何度もテストを行うことで、不良個所を徹底的に洗い出し、予防的な部品交換を行い、システム納入時には完全動作するシステムをお届けします。

OSや開発環境・並列環境のインストール

 HPCに適したOS環境の設定と、開発環境のインストールについても、HPC導入の経験に裏打ちされた使いやすいシステム構築を行います。 

ストレージの構築

 HPCクラスタで必須の高速大容量ストレージの構築についてもHPC分野で求められる性能を実現する専門的なシステムインテグレーションを行っています。社内でRAIDシステムの構築のみならず、各ノードとのNFS接続まで完了させてから納入します。

ストレージの拡張

 近い将来には2TB級の大容量ハードディスクか安定供給されるようになるため、サーバ本体にディスクを内蔵するタイプのファイルサーバでもRAID6 + スペアディスクの構成で実効容量12TB級のファイルサーバを構成できます。この12TBという容量はフルレストアの時間などを考える取り扱いやすい容量です。

 容量の拡張を考える場合は、このサーバにRAIDコントローラを追加して外付けディスクアレイを用いて増設するよりも、新たなファイルサーバを丸ごと増設し、容量のみならずディスクI/O速度やネットワーク帯域も、スケーラブルに向上させる手法をお勧めします。幸いにもGbE - 10GbEスイッチは拡張カードのスロットを余分に備えており10GBASE SFP+なら最大4ポートまでの10GbEの拡張が可能です。

バックアップサーバの設定

 今回のシステムの特徴の一つに独立したバックアップサーバを持っていることが挙げられます。ホストサーバとバックアップサーバは共にスイッチと10GbE接続しており、高速なバックアップ処理が期待できます。バックアップ動作は定期的に実績のある "rsync" コマンドによる差分バックアップを行うため、バックアップデータもネットワーク経由で簡単に読み書きでき。万一の障害時にも継続的なファイル利用が可能です。このサーバ設定も設定済みで納入いたします。

ネットワークの構築

 導入直後からすぐに本格運用に入っていただけるように、予め頂いているネットワーク情報に従い、ネットワーク環境を構築してから納入します。

オンサイトでの設置

 弊社工場で完成したシステムは、そのままの状態で精密機器運送用のトラックに搭載しお客様のサイトに届けられます。お客様のサイトでは計算機を所定の位置に設置しケーブル類を接続するだけで仮運用が可能な状態になります。

操作説明と引き渡し

 完成状態のHPCクラスタとして納入するため、おとどけしたその日のうちに仮運用を始めていただくことができます。機器の操作説明は運用を開始したシステムを用いて行いますから具体的です。実際にジョブを投入していただき、その場でご質問をうかがい、操作しながらご返答することができます。