Please note that JavaScript and style sheet are used in this website,
Due to unadaptability of the style sheet with the browser used in your computer, pages may not look as original.
Even in such a case, however, the contents can be used safely.

スーパーコンピュータSX-9の開発思想と概要

西川 岳 ・山元 正人 ・久光 文彦 ・野口 孝行 ・赤津 素康 ・丸山 隆男

要旨
1983年のSX-1/2の発表から7世代目となるSX-9は、SXシリーズの大規模共有メモリ構成、強力なメモリバンド幅とノード間通信バンド幅などの特長を継承しながら、100GFLOPSを超えるCPU性能の大幅な強化を行い、より幅広い科学技術計算分野での使いやすさと高性能を提供する新世代のスーパーコンピュータシステムです。本稿では、SXシリーズのこれまでの歩みと開発思想を述べ、SX-9のハードウェア、基本ソフトウェア、ストレージシステムの概要を紹介します。

1. まえがき

近年のIT技術の発展に伴い、大規模高速な数値計算を必要とするコンピュータの応用領域、すなわちHPC(High Performance Computing)の適用分野も大きく広がってきました。

早くからHPC技術を利用してきた科学技術分野では、数値シミュレーションが研究開発の基盤としてその重要性を増しています。物質科学、原子力、気象・気候、地球環境、航空宇宙といった自然科学の最先端領域、また産業応用では、自動車などの衝突解析、化学物質・材料開発、地下資源探査、電機・機械設計、建築・土木での構造解析などの分野では、シミュレーションのモデルや手法の高精度化・複合化が進み、スーパーコンピュータの応用範囲が拡大しています。更に近年では、科学技術以外にも、金融、Web検索、情報可視化などの幅広い分野でHPC技術の利用が拡大しています。

2. NEC SXシリーズの歴史

NECは、1983年4月に当時世界最高速を誇るSX-2、SX-1の2機種を発表し、スーパーコンピュータ市場に参入しました。SX-2は最大性能で1.3GFLOPS (毎秒13億回の浮動小数点演算)を達成、コンピュータ史上初めてギガの領域に踏み込み、1985年の出荷時に各種ベンチマークで世界最高速を実証しました。

後継機であるSX-3は、1990年4月に発表され、CPU当たり最大5.5GFLOPS、4台のマルチプロセッサで最大22GFLOPSと、当時の世界最高速記録を更新しました。国産初の共有メモリ型マルチプロセッサと並列処理技術を採用したのみならず、OSとしてはUNIXをスーパーコンピュータ向けに大幅に強化した64ビットの「SUPER-UX」を開発、オープンシステム時代を先取りし、流通アプリケーションソフトの充実を図りました。

1994年11月には、最大プロセッサ数を512台と大幅に拡大したSX-4を発売、最大構成でテラフロップスの領域に到達しました。CPUのLSI技術を従来のバイポーラからCMOSに変更することで消費電力の低減と集積度の向上の両立を実現、あわせて冷却方式をそれまでの水冷から空冷に変更し低コストを実現しました。1996年には主記憶装置をSRAMからDRAMに変えることで記憶容量の拡大、価格性能比のさらなる向上を図り、充実したアプリケーションソフトと相まって国内外から評価をいただきました。

第4世代となるSX-5は1998年6月に発表しました。クロック周波数をSX-4の2倍に高速化するとともに、CPU当たりのベクトルパイプライン数を2倍に拡大し、最大CPU性能8GFLOPS、512台のCPUで最大性能4TFLOPSを実現しました。

2001年10月には第5世代となるSX-6を発表、前機種で30数個のLSIで構成していたCPUを1チップに集積し、最大CPU性能8GFLOPS、1024台のCPUで最大性能8TFLOPSを実現しました。2002年10月には、ノード当たり最大32CPU、256Gバイトの大容量共有メモリを搭載し、自動並列化との組合せで更に使いやすくしたSX-7を発表しました。

また、この間にはNECがそのハードウェア及び基本ソフトウェア部分の基本設計と製造を担当した地球シミュレータを出荷しました。地球シュミレータは2002年3月に運用を開始、その圧倒的な高性能で世界を驚愕させたのみならず、今日に至るまで地球規模の環境変動の解明・予測に大きく貢献し続けています。

第6世代のSX-8は2004年末より出荷を開始、CPU性能で16GFLOPSの世界最高性能を達成するとともに、最大4096CPUで65TFLOPSという超高性能を達成しています。

そして2007年10月、第7世代のSX-9を発表しました。世界初の単一コア当たり102.4GFLOPSを実現するとともに、最大1Tバイトの大規模共有メモリ、最大128Gバイト/秒の超高速インターコネクトなどの強化により、最大性能ではペタフロップスに迫る839TFLOPSを達成しました。また、最先端のLSIテクノロジと高密度実装技術などにより、消費電力と設置面積については従来比で約4分の1にしました。

3. SX-9の開発思想と特長

3.1 SX-9の開発思想

スーパーコンピュータに期待されるのは、ユーザ・アプリケーションを高速に実行することであり、重要なのは単なる理論ピーク性能の高さではなく、いかに容易に高い実効性能を引き出せるかということです。SX-9では、過去に蓄積してきたSXシリーズでの実績と経験を生かし、より高い実効性能を更に使いやすく、経済的に実現することを目標に開発しました。

(1) プロセッサの高速化と共有メモリの継承

スーパーコンピュータの性能の指標としては、科学技術計算で主に使用される浮動小数点データの1秒当たりの演算性能を表すFLOPS(Floating point number Operations Per Second)値があります。近年のスーパーコンピュータの中には、特定のベンチマークコードの性能でペタフロップス(Peta FLOPS)級をうたうシステムも登場しつつありますが、実用的アプリケーションで高性能を得るためには、ハードウェアによる高速化のみならず、プログラムの並列化(MPI化)、演算負荷バランスの均一化、通信時間・同期回数の最小化など、利用する(プログラミングする)ユーザに大きな負担が生じることがあります。応用分野の広がりとともにスーパーコンピューティングが、より汎用化する中でユーザ負担をできるだけ軽くし、容易にスーパーコンピュータを利用してその結果を得ていただくことが重要と考え、SX-9ではシングルプロセッサ性能を重視し、SX-8の16GFLOPSから102.4GFLOPSへと大幅に強化しています。

また、従来SXシリーズ同様に共有メモリ型のプログラミングモデルを継承し、SX-9では最大16CPU(1638.4GFLOPS)、1Tバイトの共有メモリノードを提供し、コンパイラによる自動並列化機能を利用することで、テラフロップス級の性能を提供することを目的に開発しています。

(2) 運用・移行コスト低減の追求

SX-4以来採用しているCMOSテクノロジを更に強化し、ハードウェア機能のLSIへの集積化を推し進めるとともに、高密度実装技術を駆使して、消費電力や設置面積などの設置条件を改善し、運用コストを更に削減できるようにしています。

ソフトウェア面でも移行コストの低減として、SXシリーズのアーキテクチャを拡張・強化しつつ、上位互換性を維持することにより、お客様の既存プログラム資産の継承を可能としています。更に従来から高い評価を得てきたSXシリーズのオペレーティングシステムSUPER-UX、運用環境、コンパイラ、ソフトウェア開発環境などのツール類をそのまま利用でき、運用・利用面での移行性も容易にしています。

3.2 SX-9の特長

第3章第1節で述べた開発思想をもとにSX-9は、以下のような特長を持っています。

(1) 世界最速クラスの1チップベクトルプロセッサ

最先端65nmCMOSテクノロジの採用により、プロセッサ当たり102.4GFLOPSという世界最速クラスのプロセッサ性能を実現しています。

(2) スケーラビリティに優れたマルチプロセッサシステム

SX-9のシングルノードは、最大16CPUによるフラットな共有メモリ構成であり、シングルノードとして最大性能1638.4 GFLOPS、最大メモリ容量1Tバイトを実現しています。また、この共有メモリノードをノード当たり最大128Gバイト/秒×双方向で、専用の高速スイッチで接続することで、最大512ノード(838.8TFLOPS)まで構成でき、スケーラビリティに優れた共有・分散メモリシステムを提供しています。

(3) 先端テクノロジによる省電力と優れた設置性

先端LSIテクノロジの採用と省電力化設計により、プロセッサの消費電力・発熱量を削減しているのに加えて、高密度実装に発熱密度増に対して、高効率の冷却技術を駆使してシステムとしての低消費電力化と設置性を向上させています。

(4) 実績豊かなSUPER-UXとソフトウェア互換性

「地球シミュレータ」のオペレーティングシステム、コンパイラなどの基本ソフトウェアの設計・製造の経験を生かし、超大規模構成での優れた運用環境・ソフトウェア開発環境を実現しています。また、SXアーキテクチャの上位互換性を維持することで、従来から蓄積されてきたSXシリーズ向けに高度にチューニングされた豊富なアプリケーションソフトウェアを継続して利用できます。

4. ハードウェアの概要

SX-9のシステム構成イメージをに示します。製品ラインナップとしては、最大16台のプロセッサ(CPU)と主記憶装置を密結合した共有メモリ型のシングルノードと、このシングルノードを専用の高速ノード間接続装置(IXS)によりクラスタ接続したマルチノードシステムから構成されます。

シングルノードシステムは、最大CPU数16台(1638.4 GFLOPS)、最大主記憶容量1Tバイト、入出力スロット数最大32基のAモデル、最大CPU数8台(819.2GFLOPS)、最大主記憶容量512Gバイト、入出力スロット数最大16基のBモデルの2モデルから構成されています。いずれも演算性能、メモリスループット、入出力性能などのトータルバランスに優れ、高い実効性能を発揮します。

マルチノードシステムは、複数のシングルノードシステム間を専用の高速ノード間接続装置により、2~512台のノードをクラスタ接続したシステムであり、最大8,192CPU、839TFLOPSのベクトル演算性能を発揮します()。

5. 基本ソフトウェアの概要

オペレーティングシステムSUPER-UXは、スーパーコンピュータSXシリーズのハードウェアを効率よく利用できるように開発されてきました。約20年にわたって発展してきたハードウェアの進歩に合わせて強化され、高性能と使いやすさを両立させながら、過去バージョンとの互換性を確保し、安定した品質を提供しています。

SUPER-UXは、強力なバッチ処理機能、大規模ファイルの提供、ジョブチェックポイント/リスタート機能、自動運転機能を持ち、効率よい運用管理を可能としています。更に、充実したソフトウェア開発環境を提供し、使いやすいオペレーティングシステムを実現しています。

(1) オペレーティングシステム基本機能

SUPER-UXは、UNIX System Vに準拠し、更にBSD機能を取り込み、スーパーコンピュータにふさわしい多くの拡張機能を追加しています。大規模マルチプロセッサ、マルチノードに対応した資源管理機能を有しており、更に高速入出力機能、並列処理に対応したギャングスケジューリング機能を提供しシステムの性能を最大限に引き出しています。SX-9ではプロセス当たりのユーザ仮想空間最大サイズを4Tバイトに拡大し、1プロセスで1Tバイトの広大な実メモリを利用できるようにしました。これにより、大規模なアプリケーションの構築をいっそう容易に行うことができるようになりました。

(2) ファイル管理機能

大規模ファイルの作成及び大規模ファイルシステムの構築が可能です。標準UNIXの特徴を損なわずに、大幅な機能強化を行い、高速ファイルシステム及び高速入出力を実現しています。

また高速な共有ファイルシステムとしてgStorageFSを提供しています。gStorageFSはリモートサーバのCPUを経由しないデータ転送を実現し、ローカルファイルシステムと遜色ないデータ転送性能を発揮することができます。ユーザインタフェースについてもNFS V3 との互換性を保っています。

(3) バッチ処理機能

大規模で長時間を必要とするプログラムのために、SUPER-UXではジョブの概念をカーネルレベルでサポートしています。また、大規模クラスタへも適応可能なバッチ処理システムであるNQSⅡ、及びNQSⅡの拡張スケジューラとして、バックフィル・スケジューリングによってシステムの稼働率を最大化するJob Manipulatorを提供しています。NQSⅡは、NQSのジョブキューイング機能、リソース管理機能、ロードバランス機能などの主要機能をクラスタシステムに適応させるかたちで機能強化されています。SSI(シングルシステムイメージ)を強化し、システムの運用性を向上させています。

(4) 運用管理機能

実行中のプログラムを任意の時点で中断させ、後に再開させることを可能にするチェックポイント/リスタート機能をサポートしています。また、ネットワーク上の複数のホストマシンを1台のマシンで統合的に管理する運用管理ソフトウェアや、自動運転制御装置の活用により、システム運用の省力化・無人化に対応することができます。

(5) ソフトウェア開発環境

SX-9の性能を最大限に引き出す高度の最適化、自動ベクトル化、自動並列化機能を持つFortran、C、C++言語のコンパイラを提供しています。SX-9では、ADB(Assignable Data Buffer)と呼ばれるハードウェア機構を利用したベクトルデータ・バッファリング機能をユーザに開放し、きめ細かなメモリアクセス最適化を可能にしています。

また分散メモリプログラミングに対応したMPIライブラリ及び、HPF言語のコンパイラを提供し、大規模マルチノードユーザにも充実したプログラミング環境をサポートします。

更にGUIを用いてプログラム開発、デバッグ、チューニングをトータルでサポートするPSUITEツールや、TotalView、ITA(Intel Trace Analyzer)などのデファクトツールもサポートしています。

6. ストレージシステムの概要

大規模ファイルシステムに対応し、大容量データの高速な入出力を行うため、SX-9シリーズに接続可能なSAN対応のディスクアレイ装置iStorage D8/D3/D1を製品化しました。

これらの製品は、先進のテクノロジにより科学技術計算領域に要求される高性能、高拡張性に加えて、大容量システムを安定稼働させる高信頼、高可用性を実現しています。更に、導入コスト削減の要望に応え、ストレージの専門知識がなくてもストレージの導入が簡単に行える導入簡易化を実現しました。

7. むすび

以上、SXシリーズの歩みを振り返り、最新機種SX-9の開発思想とハードウェア、基本ソフトウェア、ストレージシステムの概要を紹介しました。今後も先進技術を取り込み、継続してSXシリーズの革新と強化を図っていくことにより、より高性能で使いやすいスーパーコンピュータシステムをご提供し、お客様の様々なニーズにお応えしていきます。

* UNIXは、The Open Groupの登録商標です。

* NFSは、米国サンマイクロシステムズの商標です。

* TotalViewは、TotalView Technologies社の米国における登録商標です。

* Intel Trace Analyzerは、米国Intel Corporationの登録商標です。

執筆者プロフィール

西川 岳
第一コンピュータ事業本部
事業本部長

山元 正人
コンピュータソフトウェア事業本部
事業本部長

久光 文彦
HPC販売推進本部
本部長

野口 孝行
コンピュータ事業部
事業部長

赤津 素康
第一コンピュータソフトウェア事業部
事業部長

丸山 隆男
システムストレージ事業部
事業部長