お問い合わせ | 導入事例 | HPC計算機 | 管理サーバ/ファイルサーバ | オプション | OS/開発環境 | アプリ | システム構築 | サポート | FAQ | ベンチ | 技術情報 | 購入案内
オプション製品 (H/W)  
イーサネット・スイッチ  
GbE-8/16/24P 1U 価格
GbE-8/16/24/48P 1U 価格
GbE-24/48P L3 1U 価格
GbE-24/48P 10GbE-4P StaL3 価格
GbE-20P 10GbE-4P StaL3Bl 価格
10GbE-24P L3 1U 価格
10GbE-24P L3 Blade 価格
2x10GBASE-T NIC  
2x10GBASE SFP+ NIC  
10GbE技術資料 (10GbEポート)  
インフィニバンド・スイッチ  
Infini/B DDR/QDR 24/36PRa 価格
Infini/B DDR/QDR 24/32PBl 価格
GPGPU  
Tesla C2050 WS (T7500)
Tesla S2050 Cluster (R410/R610)
Tesla M2050 Cluster (C410x)
Tesla M2050 Blade (M610X)
EIAラック/メタルラック  
24/42U EIA Rack 価格
MetalRack (for WS Cluster)  
無停電電源  
A-UPS 価格
D-UPS 価格
コンソール機器  
KVMコンソール 17in 1U  
KVM切替 8/16P (64/128P) 1U  
液晶モニター (各種)  
拡張カード類  
RAIDコントローラ  
(旧製品)  
InfiniBand DDR-24P  
InfiniBand SDR-24P  

GPGPU-Cluster

NVIDIA (R) Tesla (TM) GPGPU S2050 搭載
高品質GPGPUクラスタ

完成度の高いGPGPUクラスタを製品化

 ワークステーションにGPGPUカードを搭載したスタンドアロン型のGPGPU計算機が普及しています。その計算機を用いたGPGPUの実用化に向けた調査研究が盛んに行われています。その努力によってGPGPUの実用化に目途がつくと、次のステップとして本格的なGPGPU計算機システムが求められるようになります。さらにこの流れを後押しするようにGPGPUの実用化に必須とされた倍精度浮動小数点演算への対応とECCメモリの搭載を完了した新世代のGPGPUモジュール 「Tesla 2000シリーズ」 が製品化されています。

 このTesla 2000シリーズを搭載した計算機システムは高い実用性が求められると考えられます。しかしそのようなシステムの構築は容易ではありません。そこでクラスタに構築についての豊富な経験を持つ弊社がプロユースに耐える完成度の高いGPGPUクラスタを製品化しました。この製品によってGPGPUクラスタの導入に伴う煩雑な作業が省かれ、高品質なGPGPUクラスタを簡単に導入できるようになります。

 

高品質なGPGPUクラスタ製作に向けての取り組み

 GPGPUを搭載したクラスタシステムは一般的なクラスタシステムよりもハードウェアとソフトウェアの構造が共に複雑になります。そのため、安定して動作するクラスタシステムを構築するためには、一般的なクラスタよりもシステム全体の完成度をより高くする必要があります。ここでは完成度の高いクラスタシステムを構築するために弊社が行っている取り組みをお伝えします。

 GPGPUシステムの構成の完成度を高くするため、GPGPUを搭載したプロトタイプ機を弊社工場内に構築し、様々なテストを繰り返して行い、さらにNVIDIA (R) 社の協力をも仰ぎ、安定稼働するGPGPUシステムの基本パッケージを完成させています。お客様のシステムの製作する際には、この基本パッケージを元にして個々のお客様のご希望に沿ったカスタマイズを行いシステムを完成させます。このようにGPGPUシステムの基本パッケージを作成し、それに基づいてシステムインテグレーションを行うことで、高い完成度を持つGPGPUシステムを構築することができます。

 システムの基礎となるハードウェアは次の三つの部分から成り立っています。「GPGPUとホスト機から構成された演算部」、「マスターサーバ、RAIDストレージなどで構成されたマスターサーバ部」、「ネットワークスイッチ、無停電電源装置、KVM、EIAラックなどで構成された補助機器部」です。これらの各部分は多くのシステムで利用している実績のあるモジュールです。そのため大規模で複座なシステムに組み上げても安定した動作が期待できます。

 使用しているハードウェアは大手コンピュータメーカー製の製品を使用しています。大手コンピュータメーカーの製品は品質が高いのでクラスタに組み上げ長期間運転しても安定して動作します。さらにサポート体制も優れています。本システムでは基幹部となるマスターサーバ部、RAIDストレージ、スイッチなどについては当日4時間オンサイト保守を採用し、クライアント部となるホスト機についても翌営業日オンサイト保守を採用しています。万一の障害時には専門の修理スタッフが迅速に訪問し障害箇所の切り分けと修理交換を行います。このような品質の高さとサポート体制の良さによって企業の開発部門などで共同利用するような利用条件であっても安心して導入していただくことができます。

 優れたクラスタシステムには本格的なソフトウェア環境の搭載と高度なシステム設定が必須です。本システムは、HPC計算に最適化されたLinuxシステム、コンパイラや数値演算ライブラリなどの開発環境、ジョブスケジューラと共同利用環境設定、GPGPU用開発環境などを搭載しています。またHPC用にカスタマイズしたLinux OSの搭載、ネットワーク環境の設定、ユーザ情報の設定など、最先端のHPCクラスタに採用されているシステム環境を搭載しています。さらにこの基本システムを元に、お客様のご要望に応じたシステムの最適化を行い、導入直後から本稼働するシステムに仕上げて納入いたします。

 技術支援も充実しています。支援はシステム設計から始まり、システム構築、システム導入、運用サポート、障害復旧支援などまで一貫した技術サポートを行います。障害時には弊社技術チームが指揮をとり、ハードウェアメーカー側のオンサイト修理チームと連携し迅速に復旧させます。

GPGPUクラスタ専用筺体 Tesla S2050 : 1,698,900円 (税込)

 Tesla S2050は1Uサイズの筺体に 「Fermi」 と呼ばれるGPGPUユニットを4基と専用電源、冷却ファンを搭載した外付けのGPGPU筺体です。なお搭載しているFermiとは約0.5TFLOPSの倍精度浮動小数点理論演算性能と、3GBの容量と144GB/sの帯域幅を持つECCメモリを搭載した最新のGPGPUユニットです。

 Tesla S2050を利用するためにはホスト機が必要です。Tesla S2050とホスト機との接続は、ホスト機のPCI Express Gen2.0 x16バスに挿したHIC (Host Interface Card) とTesla S2050との間を専用のケーブルで接続して利用します。

【Tesla S2050の仕様】

搭載GPGPU: 4基
コア数: 1792コア (4x448)
プロセッサ周波数: 1.15GHz
搭載ECCメモリ: 12GB (4 x 3GB)
単精度浮動小数点演算性能: 4.12TFLOPS (ピーク) (4x1.03TFLOPS)
倍精度浮動小数点演算性能: 2.06TFLOPS (ピーク) (4x515GFLOPS)
メモリ帯域: 144GB/sec
外部端子: 2ポートのiPASSに各2基のGPGPUが接続
標準電力消費量: 900W TDP
対応PCI規格: PCI Express Gen2 x16
外部ソケット: 2基のiPASSコネクタ
ホスト側インターフェース: iPASSポートを備えたPCIe2.0 x16対応のHIC (Host Interface Card)
冷却: アクティブファン
外形寸法: EIA 1U

GPGPUクラスタの構成

2TFLOPSのGPGPUサーバ 「Tesla(TM) S2050」を採用

 クラスタシステムに搭載するGPGPUはEIA 1Uサイズの筐体にHPC専用のGPGPUユニット 「Fermi」 を4基内蔵し、合計2TFLOPSの倍精度浮動小数点演算性能を実現した製品です。Tesla S2050が内蔵する4基のGPGPUユニットは2基づつに2分割されており外部に2基の接続用のポートを持っています。これらの接続ポートを一台あるいは二台のホスト計算機に接続することができます。

ホスト計算機

 本システムではホスト計算機として、Xeon (Westmere-EP) を搭載しPCIe2.0 x16ソケットを1基備えた1UサーバHPC-ProServer DPeR410、あるいはPCIe2.0 x8ソケットを2基備えた1UサーバHPC-ProServer DPe610を構成に応じて選択できます。ホスト計算機の役割はGPGPUとの接続の他に、GPGPUの側で処理することのできないプリポスト処理や、ファイルサーバとのファイルの送受信、大きなデータの一時保管など多くの処理を受け持っています。そのため大きなプロセッサパワーが必要です。そこで最新のXeon (Westmere-EP) のような強力なプロセッサを十分に搭載している必要があります。

S2050とホスト計算機との接続

 GPGPUシステムの基本構成は、GPGPUモジュールを4基搭載したS2050とホスト機との間を専用ケーブルで接続して構築されています。具体的に示しますと、Tesla S2050は内部が電気的に2系統に分割されています。そのため外部には2基のPCIe2.0に対応したiPASSと呼ばれる接続ポートを持っています。このポートと接続するためホスト機の側でもHIC (Host Interface Card) と呼ばれるiPASSポートと接続用のインターフェースカードをPCIe2.0スロットに搭載します。双方をiPASS専用のケーブルで繋ぐことで接続が完了します。

 接続パターンは、2台のHPC-ProServer DPeR410と1台のTesla S2050を1系統のPCIe2.0 x16で接続し2セットのGPGPU計算機を構成する方法と、1台のHPC-ProServer DPe610と1台のTesla S2050の間を2系統のPCIe2.0 x8で接続し1セットのGPGPU計算機を構成する方法の2種類から選択できます。

S20501台とホスト機2台で2セットのGPGPU計算機を構成
実装密度とコストパフォーマンスが低い半面
PCIeの帯域幅とホスト機のコア性能が高い構成

 2台のHPC-ProServer DPeR410と1台のTesla S2050を1系統のPCIe2.0 x16で接続し2セットのGPGPU計算機を構成した場合の特徴を説明します。ホスト機のPCIeスロットはPCIe2.0 x16を利用しているため片方向8GB/sの帯域幅を2基のGPGPUで共有できます。そのため各GPGPUは4GB/sの帯域幅が割り当てられます。ホスト機とGPGPUとの間の通信量が多いアプリケーションに適した構成です。

 またホスト機には12個のプロセッサコアが搭載されているため各GPGPUに対して十分なホスト機側のプロセッサ・パワーを割り当てることができます。そのためホスト機側のプロセッサで行うプリポスト処理の多いアプリケーションに適した構成です。

上記構成用の拡張ノード

 上記のシステムの演算性能を拡張するため次のような拡張ノードを用意しています。24Uラックに16台のホスト機と8台のGPGPU筺体を搭載し、32基のGPGPUを利用できる構成です。倍精度浮動小数点演算の理論性能は16TFLOPSに達しています。

 

S20501台とホスト機1台で2セットのGPGPU計算機を構成
実装密度とコストパフォーマンスが高い半面
PCIeの帯域幅とホスト機のコア性能が低い構成

 1台のHPC-ProServer DPeR610と1台のTesla S2050を2系統のPCIe2.0 x8で接続し1セットのGPGPU計算機を構成した場合の特徴を説明します。ホスト機のPCIeスロットはPCIe2.0 x8を利用しているため片方向4GB/sの帯域幅を2基のGPGPUで共有できます。そのため各GPGPUは2GB/sの帯域幅が割り当てられます。ホスト機とGPGPUとの間の通信量が少ないアプリケーションに適した構成です。

 またホスト機に搭載されている12個のプロセッサコアを4基のGPGPUとシステムで分け合って利用するため、GPGPUが必要とするプリポスト処理に利用できる演算能力が少ない構成です。プリポスト処多の比較的少ないアプリケーションに適した構成です。

 

上記構成用の拡張ノード

 上記のシステムの演算性能を拡張するため次のような拡張ノードを用意しています。24Uラックに12台のホスト機と12台のGPGPU筺体を搭載し、48基のGPGPUを利用できる構成です。倍精度浮動小数点演算の理論性能は24TFLOPSに達しています。

 

自由な構成

 上記構成は基本的な構成例です。この例をもとに、ノード数やマスターサーバの構成を増減させて、ご希望の構成を実けんすることができます。

 

高速ネットワーク部

 システムインターコネクトにはInfiniBandをオプションで採用でき、GPGPUで加速された各演算ノード間のMPI通信などを高速に処理することができます。

ファルサーバ・管理サーバ部

 ファイルサーバと管理サーバ用には最新Xeon (Westmere-EP) を搭載する1UサーバHPC-ProServer DPeR610を用いています。ストレージ用には2TBディスクを12基搭載する外部ディスク装置を接続し、RAID6による高速大容量ボリュームを構築しています。管理サーバとしては、ログインサーバ機能、ジョブスケジューラ機能などを担っています。さらに開発環境も搭載しており、"CUDA"、PGIコンパイラ、Intelコンパイラ、数値演算ライブラリ、並列計算用通信ライブラリなど実績ある構成をテスト済みで搭載しています。

標準的なHPC-Clusterとしてのシステムインテグレーション

 GPGPUモジュールを搭載するだけでは、実用的なHPCクラスタとして利用するにはシステム環境が大きく不足しています。弊社のシステムには標準的なHPCクラスタとして完成度の高いシステムインテグレーションが施されており、GPGPUの開発・運用プラットホームとて必要十分な環境を備えています。

ラッキングとケーブリング

 システムはEIAラックに整然と搭載したうえで動作テストを行い、出荷前に初期不良を洗い出したうえで改修まで実施し、障害を解決したうえで納入いたします。

システムの設置と説明

 計算機納入時には担当技術者がお客様のサイトを訪問し、設置当日にシステムの説明を実施します。さらに、ご要望に応じて別途のシステム説明を行うサービスもお受けいたします。

3年間のサポート

 システムには3年間のサポートが無償で付属しており安心です。

導入実務

導入事務の迅速化

 新機軸を採用したシステムの導入については、導入事務に付帯する資料収集や書類作成にも手間がかかり貴重な時間を奪われます。そこで弊社は計算機導入手続きのエキスパートによる迅速確実な事務作業を行いストレスの少ない導入を実現します。