HPC-ProConnect IS5022 (QDR 8-port)
HPC-ProConnect IS5023 (QDR 18-port)
HPC-ProConnect IS5024 (QDR 36-port)
HPC-ProConnect SX6025/SX6036 (FDR 36-port)
HPC-ProConnect HCA/Mシリーズ
1Uサイズ筺体のInfiniBand QDRスイッチとFDRスイッチ
QDRスイッチは8-port/18-port/36-portの3製品をラインアップ
FDRスイッチは36-portの製品をラインアップ
FDRのHCAはPCI Express 3.0 x8対応製品をラインナップ
プロセッサに搭載されているコア単体の性能は、過去10年間で約2倍に高速化し、次の10年間でも約2倍の高速化が見込まれています。そのため前後20年間でコア単体の性能向上率は約4倍にしか達していません。これに対して、プロセッサに搭載されているコア数は、過去10年間で8倍に増え、次の10年間では8倍から32倍に増えると見込まれています。そのため前後20年間でのコア数の増加率は64倍から256倍にも達します。
前後20年間の単体コアの性能向上率とコア数の増加率を比較すると、後者の方が圧倒的に大きいのです。その理由は、コア単の性能を向上させることは技術的に難しいのですが、コア数を増やすことは半導体製造技術の向上に伴って簡単に実現できるからです。しかもコア数の増加率は配線密度の2乗に比例します。そのため両者の性能の乖離はこれからも加速度的に進みます。
しかし他方で、プロセッサがメニーコア化しても全てのアプリケーションが高速化するわけではありません。並列度が高くなるに従って並列処理オーバーヘッドや通信処理オーバーヘッドの壁が立ち塞がりるからです。しかもその壁を乗り越えようにも、多くの開発者はアプリケーションの高速化に時間を使うよりも、本質的な課題の解決に時間を使うことを望みます。また、過去に開発されたアプリケーションの高速化はさらに困難です。メニーコアを使って実用的なアプリケーションを高速化することは容易ではありません。
。メニーコアを使って実用的なアプリケーションを高速化することの難しさはSPECfp 2006や他のベンチマーク結果を見ていても明らかです。メニーコアに適した「CPU性能律速型アプリケーション」ですらコア数の増加に伴って並列通信ボトルネックや並列処理オーバーヘッドが発生しはじめます。そのため並列度を過度に上げると逆に速度低下を招く場合もあります。まして「メモリ性能律速型アプリケーション」を高速化するためにはメニーコア以前にメモリ帯域ボトルネックを解決しなければなりません。
システム構築の現場では実用的なアプリケーションを高速化することが求められます。そこでは、アプリケーションに手を加えることは最後の手段です。基本的には、計算機環境を改良してアプリケーションを高速動作させることを目指しています。実際の最適化では次のような作業を行います。
・ 階層的な並列処理の導入
・ 各階層での最適なコア数の把握
・ 各階層での最適なメモリ帯域の把握
・ ジョブスケジューラの最適化
・ 優れた開発環境の導入
・ 高速な数値演算ライブラリの導入
・ 高速なハードウェアの導入
・ 高速なネットワークの導入
・ 最適な管理サーバの導入
最適化の作業は多岐にわたります。これらの作業によって潜んでいるボトルネックを解消しシステム全体のバランスを整えるとアプリケーションの性能が向上し始めます。
計算機環境の改善によってアプリケーションを高速化する方法は、幅広いアプリケーションの高速化が期待できます。また利用者に負担を掛けない合理的な方法でもあります。しかも、計算機環境を改善すると計算機の素性が良くなるためメニーコアに最適化したアプリケーションでも相乗効果によってさらに高速化します。
計算機環境を改善するなかでネットワーク並列環境の改善は重要です。メニーコアによるアプリケーションの高速化とは、並列度を上げても並列処理効率を落ちないようにすることです。すなわち通信ボトルネックを抑えることです。それには2つの方法があります。1つは並列処理の階層化です。もう1つは通信性能を向上させることです。これらは一方でも効果がありますが、両方なら相乗効果を発揮しさらに高い性能が得られます。
1つめの並列処理の階層化とは、メニーコア機で並列度を上げると様々なところで通信ボトルネックが発生します。この現象を解決するため、並列処理を階層化しプロセッサ内通信とプロセッサ間通信などに分散化し、プロセッサ内通信をプロセッサに閉じ込め、プロセッサ間通信の通信量を抑えることで、計算機全体のボトルネックを抑える方法です。
並列処理の階層化によってプロセッサ内部の通信ボトルネックは解消されます。しかし計算機間の通信ボトルネックは解消されません。これを解消するためには高速な通信環境が必要です。
InfiniBandは並列計算で利用される業界標準の高速通信デバイスです。InfiniBandの種類は性能別に10GbpsのSDR、20GbpsのDDR、40GbpsのQDRがあり、さらに56GpsのFDRの普及が始まっています。またInfiniBandと計算機を接続するPCI Expressバスも5Gbps/laneのPCI Express 2.0が普及していて、さらに10Gbps/laneのPCI Express 3.0の普及が始まっています。このページではプロセッサのマルチコア化に対応する高速なInfiniBand製品をご紹介し、プロセッサのメニーコア化に対応した高速なネットワークを搭載する新世代クラスタ計算機の構築を提案します。
弊社は高速なハードウェアを単純に提供している会社ではありません。メニーコアを活かしてアプリケーションを高速化するために必要な技術サービスと高速なハードウェアをシステムとして提供している会社です。このページでご紹介したように、高速なInfniBand機器を導入してもクラスタ構築の高速化は不可能です。弊社は、アプリケーションの挙動を見てボトルネックの最小化を考えたシステム構築サービスを「HPC-ProService」という名称で提供しています。
HPC-ProConnect IS5022HPC-ProConnect IS5022 (以下、IS5022) は1Uサイズの幅の狭い筺体に、8個のInfiniBand QDRポートを備えたInfiniBandスイッチです。各ポートの理論性能は40Gbps、総通信帯域はノンプロっキングの双方向通信で640Gbps、レイテンシーは100nsと上位機種と同等の性能です。IS5022は小型ネットワーク並列計算機の構築や、超高速ストレージシステムの接続に威力を発揮するスイッチです。
HPC-ProConnect IS5023HPC-ProConnect IS5023 (以下、IS5023) は1Uサイズの筺体に、18個のInfiniBand QDRポートを備えたInfiniBandスイッチです。各ポートの理論性能は40Gbps、総通信帯域はノンプロっキングの双方向通信で1.44Tbps、レイテンシーは100nsと高性能です。IS5023は小中型ネットワーク並列計算機の構築や、超高速ストレージシステムの構築に威力を発揮するスイッチです。
HPC-ProConnect IS5024HPC-ProConnect IS5024 (以下、IS5024) は1Uサイズの筺体に、36個のInfiniBand QDRポートを備えたInfiniBandスイッチです。各ポートの理論性能は40Gbps、総通信帯域はノンプロっキングの双方向通信で2.88Tbps、レイテンシーは100nsと高性能です。IS5024は中型ネットワーク並列計算機の構築や、超高速ストレージシステムの構築に威力を発揮するスイッチです。
HPC-ProConnect SX6025HPC-ProConnect SX6025 (以下、SX6025) は1Uサイズの筺体に、36個のInfiniBand FDRポートを備えたInfiniBandスイッチです。各ポートの理論性能は56Gbps、総通信帯域はノンプロっキングの双方向通信で4Tbps、レイテンシーは165nsと高性能です。SX6025は中型ネットワーク並列計算機の構築や、超高速ストレージシステムの構築に威力を発揮するスイッチです。このFDR InfiniBandスイッチを使用する場合はFDRに対応したHPC-ProConnect HCA/M-FP3X8SもしくはHPC-ProConnect HCA/M-FP3X8Dを使用してください。
HPC-ProConnect SX6036HPC-ProConnect SX6036 (以下、SX6036) は1Uサイズの筺体に、36個のInfiniBand FDRポートを備えたInfiniBandスイッチです。各ポートの理論性能は56Gbps、総通信帯域はノンプロっキングの双方向通信で4Tbps、レイテンシーは165nsと高性能です。SX6036は中型ネットワーク並列計算機の構築や、超高速ストレージシステムの構築に威力を発揮するスイッチです。このFDR InfiniBandスイッチを使用する場合はFDRに対応したHPC-ProConnect HCA/M-FP3X8SもしくはHPC-ProConnect HCA/M-FP3X8Dを使用してください。
HPC-ProConnect HCA/M-QP2X8SHPC-ProConnect HCA/M-QP2X8S (以下、HCA/M-QP2X8S)はSingle-PortのQDR InfiniBand Host Channel Adapterです。ホストとの接続は40GbpsのPCI Express 2.0 x8です。Single-PortのQDRの帯域は40GbpsですからPCI Express 2.0 x8の帯域はマッチしています。
HPC-ProConnect HCA/M-QP2X8DHPC-ProConnect HCA/M-QP2X8D (以下、HCA/M-QP2X8D)はDual-PortのQDR InfiniBand Host Channel Adapterです。ホストとの接続は40GbpsのPCI Express 2.0 x8です。Dual-PortのQDRの帯域は80Gbps (40Gbps x2)ですからPCI Express 2.0 x8の帯域が低すぎます。
HPC-ProConnect HCA/M-QP3X8SHPC-ProConnect HCA/M-QP3X8S (以下、 HCA/M-QP3X8S)はSingle-PortのQDR InfiniBand Host Channel Adapterです。ホストとの接続は80GbpsのPCI Express 3.0 x8です。Single-PortのQDRの帯域は 40GbpsですからPCI Express 3.0 x8の帯域は余裕があります。安価なQDR 8-portスイッチが選択できます。
HPC-ProConnect HCA/M-QP3X8DHPC-ProConnect HCA/M-QP3X8D (以下、HCA/M-QP3X8D)はDual-PortのQDR InfiniBand Host Channel Adapterです。ホストとの接続は80GbpsのPCI Express 3.0 x8です。Dual-PortのQDRの帯域は80GbpsですからPCI Express 3.0 x8の帯域はマッチしています。安価なQDR 8-portスイッチが選択できます。
HPC-ProConnect HCA/M-F10P3X8SHPC-ProConnect HCA/M-F10P3X8S (以下、 HCA/M-F10P3X8S)はSingle-PortのFDR10 InfiniBand Host Channel Adapterです。ホストとの接続は80GbpsのPCI Express 3.0 x8です。Single-PortのFDR10の帯域は 40GbpsですからPCI Express 3.0 x8の帯域は余裕があります。安価なQDR 8-portスイッチが選択できます。
HPC-ProConnect HCA/M-F10P3X8DHPC-ProConnect HCA/M-F10P3X8D (以下、HCA/M-F10P3X8D)はDual-PortのFDR10 InfiniBand Host Channel Adapterです。ホストとの接続は80GbpsのPCI Express 3.0 x8です。Dual-PortのQDRの帯域は80GbpsですからPCI Express 3.0 x8の帯域はマッチしています。安価なQDR 8-portスイッチが選択できます。
HPC-ProConnect HCA/M-FP3X8SHPC-ProConnect HCA/M-FP3X8S (以下、 HCA/M-FP3X8S)はSingle-PortのFDR InfiniBand Host Channel Adapterです。ホストとの接続は80GbpsのPCI Express 3.0 x8です。Single-PortのFDRの帯域は 56GbpsですからPCI Express 3.0 x8の帯域は余裕があります。高価なFDR 36-portスイッチしか選択肢がありません。廉価なスイッチの登場が待たれます。
HPC-ProConnect HCA/M-FP3X8DHPC-ProConnect HCA/M-FP3X8D (以下、HCA/M-FP3X8D)はDual-PortのFDR InfiniBand Host Channel Adapterです。ホストとの接続は80GbpsのPCI Express 3.0 x8です。Dual-PortのQDRの帯域は112GbpsですからPCI Express 3.0 x8の帯域は不足しています。PCI Express 3.0 x16対応のHCAの登場が待たれます。また高価なFDR 36-portスイッチしか選択肢がありません。廉価なFDRスイッチの登場も待たれます。
参考
| InfiniBand / PCI Express type | B/W (Gbps) | |
| Single-Port | Dual-Port | |
| SDR | 10Gbps | 20Gbps |
| DDR | 20Gbps | 40Gbps |
| QDR | 40Gbps | 80Gbps |
| FDR10 | 40Gbps | 80Gbps |
| FDR | 56Gbps | 112Gbps |
| PCIe 2.0 x8 | 40Gbps | |
| PCIe 3.0 x8 | 80Gbps | |
| PCIe 3.0 x16 | 160Gbps | |