Interactive Essay, IPSJ Magazine, Vol.41 No.7(2000.7)

情報処理, Vol.41, No.7 (2000.7)

インタラクティブ・エッセイ

これでいいのか? 日本のスパコン

朴泰祐　／　筑波大学電子・情報工学系/計算物理学研究センター

概要

スパコンの世界は経済原理で動こうとすると無理がある。特に日本のそれは ASCI 等のマシンが upward-scalability を基本に作られているのに対し、 downward-scalability (reverse-scalability) を基本に作られている、つまり最大規模のマシン構成は良いが、エントリモデルの入り口が高すぎる。しかし、これはベクトル機としてやむを得ない条件でもある。とにかく、何らかのプロジェクト指向でスパコン開発を続けること、少なくともそれを続けられる土台を継続的に持つことは、日本が世界に誇る HPC ハードウェア技術を存続させるために必要なことである。一旦研究開発が中止されれば、そのキャッチアップは 10年やそこらでは不可能である。このような状況に対し、日本のベンダーと政府は昨今の不況にめげずに前向きに対処してほしい。もちろん、大学や国研は全力でそれをバックアップし、産管学共同で日本の優れたハードウェア技術を守っていかなければならない。

TOP500

はじめに、本稿ではスパコンを保有する組織名やメーカ名が名指しでどんどん出てくるが、それらの全ては客観的事実を述べるために挙げているのであり、それ以上の意味は何ら含まれていないということを予めお断りしておく。これは筆者が「H社」みたいな曖昧な表現が嫌いだからである。エッセイということでお許し願おう。

さて、「スパコン」という言葉は実はあまり好きではないが、紙面節約と習慣化された言葉ということで、敢えて使おう。先日、今年上半期のいわゆる TOP500リストが公開された [1] 。これは連立一次方程式の直接解法を基本としたLinpackベンチマークの公式結果から、世界の高性能コンピュータの上位500 位をリストアップしたもので、年2回公開されている。Linpackにはいくつかのカテゴリがあるが、TOP500が対象としているのは「問題サイズはいくらでも大きくてよく、とにかく実効MFLOPS値(Rmax)が大きい程よい」というものだ。「そもそもLinpackがマシン性能を表す正当なベンチマークか?」という長年の疑問はあるにせよ、ともかく世界のハイエンドマシンの傾向を見るためのバロメータにはなっている。

米国ASCI計画に後押しされたビッグ3マシン(IntelによるASCI Red、 SGI/CrayによるASCI Blue Mountain、IBMによるASCI Blue Pacific)が勢ぞろいして以来、このところ上位3位は不動になっている。日本はといえば、1996 年下半期に筑波大/日立のCP-PACS、航空宇宙技術研究所/富士通のNWT、東大の日立SR2201がトップ3を独占して以来、アメリカ勢に押され気味である。昨年あたりまで何とかトップ10に1台入る程度だったが、今回の結果では高エネルギー加速器研究機構と東大の日立SR8000がそれぞれ6位と9位に入っている。ここでは「TOP500の上位に入るよう頑張ろう」なんていう話をするつもりはない (それはそれで楽しいだろうが)。ただ、日本のスパコン市場が下降気味になっていることに対し、もっと色々なソリューションを皆で考え、世界に名立たる日本のスパコンにもっと頑張ってほしいというエールを送るつもりだ。

日米スパコンの違い

TOP500リストに対する各種分析の中に、「各メーカ製マシンの占める累積 FLOPS値」というのがある。つまり、500台のシステムをメーカ別に分け、それぞれが全体の何割を占めているかという分析である。ここでは米国製スパコンが大きな割合を占めており、日本製は苦しい立場にいる。この原因は2つあるだろう。1つ目は「日本は米国製を買うが、米国は日本製を買わない」という、不条理だが厳然たる事実である。日本で稼動している大規模なIBM RS6000/SP システムが上位にランクされていたりするが、その逆はない（ドイツで日立の SR8000が5位に入っているが、これはヨーロッパの話）。もう1つは以下に述べるアーキテクチャというか、スパコンへのアプローチの違いによるものである。

この10年間の日米のスパコン情勢を考えると、アーキテクチャの面ではっきりとした差が出ているのが目につく。クレイの衰退以来、米国ではいわゆるベクトル型計算機は姿を消しつつあり、一方日本ではハイエンドマシンの基本は相変わらずベクトル型である（日立は純粋なハードウェアベクトル機構から、擬似ベクトルと呼ばれるソフトウェア指向に切り替えているが本質的にはキャッシュに頼らないベクトル機とみなせる）。ここにTOP500の累積FLOPS値の差を生む鍵がある。つまり、SGI/CrayやIBMが作っているマシンは基本的にワークステーション技術の延長にあり、いわば「小さなワークステーションをどうたくさんつなげていくか」という『スケーラビリティ』に基づく設計をしている。これに対し、日本のスパコン３社のマシンは基本的に「ハイエンドシステムが中心にあり、その小型版としてエントリモデルもある」という考えでできている。その結果、いわゆるミッドレンジに位置するシステムの価格や導入のし易さに大きな差が生じていると考えられる。TOP500リストの中ごろから末尾のあたりを見ると、この辺の差、つまりミッドレンジシステムのどれくらいを占めているかがはっきり現れている。この辺が、IBMが圧倒的な「導入システム数（ノード数ではない）」を誇っている1つの理由でもある。

一言で言えば、日本のスパコンは基本的に過去のベクトル技術の延長にあり、良い面も悪い面も引きずっているが、結果としてハイエンドシステム中心になっているのに対し、米国性はローエンドからハイエンドまでのあらゆる階層に渡り、総数的に有利になっている。

この他にも「最大のシステムを作ったときの大きさ」も比較すると面白い。 ASCIの巨大マシンの実装の様子などはWWWなどを通じて簡単に見ることができる（ASCI Blue Pacificが何日もかけてどのようにインストールされたかは、 Webページ [2] に時系列で紹介されていて非常に興味深い）。例えば1 TFLOPSを達成するために要する床面積を見てみると、IBMと日立に大きな差があるのが一目でわかる。先日、ロスアラモスで次期ASCIマシンを導入するビルの建築の様子を見たが、この工事のため深刻な駐車場問題が生じているそうだ。日本の敷地面積事情を考えると、これは大きな問題だろう。つまり、日本のスパコンは日本の狭い国土にマッチしているといえる。

ベクトルを脱却すべきか？

スパコンのハードで最も金がかかっているのは実はプロセッサではなくメモリである。プロセッサ内に高密度な演算装置を組み込むことは昨今の高集積化技術によって可能となっている。それに対し、いわゆるmemory wall problem はますます深刻化しており、いかにしてプロセッサに大量のデータを効率良く送り込むかが問題となっている。キャッシュに依存する米国型ソリューションは、これをキャッシュを有効利用するアルゴリズムやコンパイラの問題として捉え解決している。しかし、これはアプリケーション依存の部分が大きく、必ずしも万能ではない。日本のベクトル技術は、メモリのバンク化による高スループット化を礎に、ある程度の絶対的なメモリトラフィックに耐えるようになっている。その意味で「問題への適応性」は日本側に軍配が上がる。

その意味で、キャッシュブロッキングが容易に行えるLinpackは日本製スパコンにとって非常に不利なベンチマークになっている。この点に着目し、日本のメーカはベクトル機の「強力さ・タフネス」をもっとプロモーションすべきではないか。今やベクトル技術は日本の「お家芸」であり、その有用性をもっとアピールしなければならないだろう。

経済的情勢その他に押され、ベクトル技術を衰退させることは避けるべきである。大規模科学技術計算には、まだまだベクトルに頼らなければならない問題が一杯ある。一旦ベクトル技術を捨ててしまえば、再びそれにキャッチアップするには長い時間がかかるだろう。今、世界に対して日本が計算機科学/工学の面で優位に立っている技術を、おいそれと捨ててはならない。そのためにスパコンメーカには歯を食いしばって頑張って欲しいという気持ちだ。

ただ、一つ注文したいのは小規模システムあるいはエントリモデルへの配慮である。ある程度の大規模システムでちょうどペイするようなシステム構成 (例えば並列相互結合網）を想定すると、どうしてもローエンドシステムではそれがボトルネックになり、価格的に不利になってしまう。もう少し「間口の広い」エントリが用意されていれば、ユーザも助かると思う。言うなれば、日本のシステムには、大規模システムからの『リバース・スケーラビリティ』を考えて欲しい。米国と比べ、ここが商売の分かれ目になっているように思えてならない。例えば、少数プロセッサシステムではバンド幅が少し狭くコンパクトなスイッチがオプションとして選べる、なんていうのが嬉しい。(かつてIBM SP2には、ネットワークをHigh Performance Switchにするか、Ethernetにするかというオプションがあった)

クラスタでいいんですか？

話は変わるが、TOP500リストの移り変わりを見ていると、昨今はミッドレンジを中心にクラスタシステム、特にPCクラスタの活躍が目立つ。極端な話、トップに君臨するIntelのASCI RedはPentium-II (III?)のデュアルプロセッサ構成をParagonの名残のネットワークで結合したものである。これもLinpackだから、という面はあるもののなかなか頑張っている。

では、クラスタシステムはハイエンドのスパコンになり得るか？賛否両論あろうが、ここでは敢えて「NO」と言っておこう。クラスタはミッドンジとローエンドを支える非常に優れた技術である。が、やはりハイエンドをこれでまかなおうというのはかなり無理がある話だ。最大の問題はハイエンドシステムが要求する大規模問題を本当にクラスタ向けにコーディングし、安定して動かすことができるだろうかという疑問である。さらに、システムサイズの問題もある。ネットワークケーブリングや、筐体のコンパクトさなどを考えると、数千ノードのクラスタ（それぐらいはないと太刀打ちできない）を安定運用するのはなかなか大変そうである。

スパコンを実際に使うということは、設置面積から始まり、安定運用させるための管理、そして部品点数と共に急低下するMTBFの問題などをクリアしなければならない。クラスタにそれを求められるかというと現状ではNOであろう。繰り返すが、トップを狙わないマシンとしてはクラスタは非常に効率的だと思う。（現在、TOP500の末尾はだいたい45GFLOPSぐらい。1GHzのAthlonのクラスタで充分挑戦可能ですよ、皆さん）

最後はやはりお金の問題

現在のスパコン事情の苦しいところは、結局はやはりお金の問題である。世界規模で見てもハイエンドコンピューティング（いわゆるHPC）市場は数千億円と言われている。このただでさえ小さいパイを日米、さらに一部のヨーロッパ企業で争うわけだから大変だ（片や、日本国内のパチンコ産業は数兆円規模だというのに）。計算機システムとしても、サーバ(ビジネス)系に比べ数値計算系の市場は小さい(かつ、一般にユーザがお金を持っていない :-))。それに加え、昨今の不景気を考えると、スパコン部門を何とかしてしまおうとメーカが考えるのもわからないではない。しかし、前述したように日本の貴重なベクトル、あるいはスパコン技術は殺してはならない。何とか頑張ってもらいたい。

もちろん、経済効果だけに任せていては火は消えてしまう。このためには、国レベルでのバックアップが必要なことは言うまでもない。ASCIだって、消えそうになっていたHPCN (High Performance Computing and Networking)の火に対し米国政府が本腰を入れた結果の産物である。スパコン販売で不利になっている日本のメーカを産官学の協力で助ける努力は必要である。

現状での最も明るい話は科学技術庁が行っている地球シミュレータ計画である。NECの協力の下でピーク性能40TFLOPS、アプリケーション性能5TFLOPSの大型機（設置するのに体育館1つ分の建物が必要）が予定されている。このような超大型プロジェクトだけでなく、いろいろなレベルで産官学の協力を実現できるプロジェクトが立ち上がって欲しい。日本の明るいスパコン未来のために。

参考資料:

[1] http://www.top500.org
[2] http://www.llnl.gov/asci/platforms/bluepac/sstgallery/

(2000.6.16)

がんばるぞ、日本のスパコン

渡辺　貞　／日本電気ＮＥＣソリューションズ

朴先生、日本のスパコン（実は、私もこの言葉は好きではありません）頑張れとエールを送って下さっていることに対し、スパコン開発に長いあいだ携わってきたものとして、勇気付けられる思いです。

さて、先生は「ＴＯＰ５００］をベースに「この世界」のサーベイをしていますが、私は、ＴＯＰ５００で「この世界」の傾向を見ることには大きな疑問を感じています。その理由をここでいろいろと述べる余裕はありませんが、次の例を挙げるだけで十分でしょう。

ＴＯＰ５００のリストを見ますと、ドイツテレコムとかe-Bayなどがユーザとして載っています。ＴＯＰ５００に載るための性能指標であるＬＩＮＰＡＣＫは浮動小数点演算を多用しますが、ドイツテレコムのアプリケーションが浮動小数点演算を多用しているとは思われません。ＮＴＴやセブンイレブンの巨大なシステムがこのＴＯＰ５００リストに登録されると、勢力分布は大きく変わってくるでしょう。日本のベクトルスパコンなどはかすんで見えなくなってしまうかもしれません。

次に、日米のスパコンの違いに言及されていますが、これについても一言付け加えたいと思います。旧クレイのベクトル機やＴ３Ｅなどが世の中から消えつつある現在、米国のほとんどのスパコンは並列スカラサーバと呼ばれるものです。これらは、トランザクション処理やデータベース処理、ＣＡＤ用として製品化されたワークステーションやサーバを大規模化して科学技術計算用のスパコンとして用途を広げたものと解釈することもできます。最近では、いろいろな開発用ツールが揃ってきたとは言え、並列スカラサーバで、効率の良いソフトウェアを作るのには大きな困難を伴います。極端なことを言えば、ハードウェアの開発は簡単に済ませ、ソフトウェアの開発に大きな負担を強いるのが米国のマシンと言えるでしょう。

これに対して、日本のスパコンは伝統的に数値計算を主体とした科学技術計算専用マシンということができます。従って、科学技術計算以外には利用できないがために（トランザクション処理などにも使えるが効率が極めて悪い）、当然のことながら、狭い市場にしか適用できません。しかしながら、数多くの科学技術計算用アプリケーションは極めて効率良く走り、また、効率の良いソフトウェアの開発も容易であるといえるでしょう。このような特徴を持つ大きな理由としては、朴先生が述べているように、構造上は、メモリ周りの性能の違いによるところが大きいからといえます。

さて次に、ベクトルを脱却すべきか、ということについて考えてみます。これははっきり言って、ＮＯです。脱却すべきではありません。ベクトル機の強みはなんと言っても、多くの科学技術計算において、並列スカラサーバよりもはるかに処理効率が上回るということにあります。もちろん、例外はあります。

この大きな理由の一つは、ベクトル機のメモリ周りの強さにありますが、もう一つ忘れてならないのは、ベクトル機はＳＩＭＤマシンだということにあります。一度、ベクトル命令を取りだすと、あとはひたすら演算を繰り返せばよいという構造上の単純さがあります。スカラ命令は、単純な繰り返し演算でも、データフェッチ、演算、ループカウント、分岐を繰り返すこととなります。また、命令実行のためには、当然のことながら、複数の命令フェッチもあることを忘れてはなりません。このような複数命令の実行において、パイプラインハザードを避けるために、Ｏｕｔ－ｏｆ－ｏｒｄｅｒ実行、プレディケーション、レジスタリネイミング、投機実行など、さまざまなアーキテクチャ上の工夫やコンパイラの最適化を行なっていますが、これにも限度があるでしょう。また、スカラプロセッサを多数並列に並べたとしても、すべてのプロセッサへの均等な負荷分散、プロセッサ間の同期オーバヘッドの削減、プロセッサ間通信量の低減など、効率良いプログラミングのためには多大の労力を必要とします。アムダールの法則から言っても、少数の強力なプロセッサによる並列化がもっとも効率の良いのは明らかです。

２０００年問題は終わりましたが、最近、米国においても「もう一つの２０００年問題」と称して、ベクトル機が使えないために、大規模科学技術計算環境において、欧州や日本に遅れを取っているという記事を見かけます [1] [2] 。私の知っている米国の研究者は「ここの計算センターはベクトル機から並列スカラサーバに代わってしまった。我々はいきなりすべてのベクトル機用コードからＭＰＩによる並列コードに変えなければならなくなった。現場は大混乱だ」と嘆いておりました。

また、最近、日本の某研究所に設置されたＬＩＮＰＡＣＫではほぼ同等性能のベクトル機と並列スカラサーバの稼動状況を調べてみました。その結果、ＣＰＵの使用稼動率はベクトル機が圧倒的に高く、平均のジョブの性能はベクトル機ではＧＦＬＯＰＳオーダーであったのに対し、並列スカラサーバ上のジョブの平均性能はＭＦＬＯＰＳオーダ－でした。これを見ても実際の環境ではベクトル機はかなり有効に使われており、この傾向はベクトル機が存在する限り、近い将来、大きく変わるとは思われません。ベクトル機は物理や化学の研究分野、企業の開発現場では有用なツールなのです。

最後にお金の問題です。メーカとして、もっとも言いたいことは、世の中の風潮に惑わされることなく「いいものはいい」とユーザが正しく評価し、適切な価格でシステムを導入してくれることです。特にスパコンの場合は、政治的な働きによってシステムの導入が決定されることがあり、適切なビジネスになっていないケースが多くあります。公正な評価によってシステムの導入がなされれば、健全なビジネスとして、Grand Challenge分野の超ハイエンドは別として、永続的にスパコンを開発していくことが出来るでしょう。もちろん、ユーザ側の限られた予算の中で要望を満たす適切なシステムとするためには、メーカ側では今以上にコスト削減の努力が必要でしょう。ＣＰＵ周りの製造コストについて言えば、近い将来、半導体技術の進歩により、ベクトル機と言えども、ＣＰＵはワンチップとなり、マイクロプロセッサを多数並べた並列スカラサーバと大きな違いが無くなることは確実です。ところで、かつてセイモア・クレイと一緒にＣＤＣ６６００を開発したニール・リンカーンはこんなことを言っています。

「回路設計やアーキテクチャはスーパーコンピュータと呼ぶ大きなパズルのほんの一部分に過ぎない。スーパーコンピュータプロジェクトの実現性の重要な制約条件は、機構部分、電力、実装、冷却条件である」 [3] 。

話は脱線しましたが、真のスーパーコンピュータを開発しようとすると、ＣＰＵだけでなく色々なところにお金がかかると言うことです。

メーカは市場拡大（ユーザを増やすように）にもっと努力すべきでしょう。そのためには、先生の仰るように、裾野を広げる努力をもっともっとすべきでしょう。ハイエンドの開発がドライビングフォースとなって、それが下位の製品につながる、そんなスーパーコンピュータは、特殊なアーキテクチャではなく「汎用的」なものであり、且つコストも「安い」ものである必要があります。そうするとハイエンドは、「汎用的」で且つ「安い」ものであるがために、大規模計算では性能が出ないと言ったジレンマに陥る可能性もありますが、そこを解決するのが我々開発するものの腕の見せ所ということになるのでしょう。

「日本には資源がない。日本の生きる道は科学技術立国だ」と戦後の教育で頭からたたき込まれた古い（？）人間にとって、スーパーコンピュータの技術は、コンピュータそれ自身の基本となる技術であるだけでなく、それを利用した科学の発展、産業の振興にとっての基本となるものであることは疑う余地がありません。そのためには、産官学の協力で、日本の明るい未来を開きたいと私も願うものであります。

参考資料:

[1] "The Y2k Cliff In High-End Computing", HPCC WEEK,March 29,1999　
[2] "The Role of High Performance Computing in Industry", IDC Report,1999
[3] "It's Really Not as Much Fun Building a Supercomputer as it is Simply Inventing One", N.R.Lincoln, High Speed Computer and Algorithm Organization, ACADEMIC PRESS, 1977

(2000.6.19)

これからはクラスタでいいじゃん---ソフト屋の独り言

松岡　聡　／東京工業大学

なぜ我は大規模コモディティクラスタをソフト屋風情で構築するか

最初に断るが、筆者は根っからのソフト屋である。14歳の時8080なる計算機に接して以来、ずっとソフトをひたすら書いてきて、今の自分がある。最近は、研究の一環で、コモディティクラスタをスローガンに、ソフト屋ながら100~数百プロセッサ規模のクラスタを研究室に設計・構築している(手前味噌になるが、日本の大学の一研究室としては最も大規模かもしれない)。従って、これから述べる返答はソフト屋の偏見に満ちているといえよう。苦労してハードを開発されている方々、また、あと数サイクルを搾り出そうとベクトルのチューニングに勤しむアプリケーションの方々には、ソフト屋のいい加減な発言と映るかもしれない(無論筆者も数サイクルを搾り出すのは好きである)。しかしながら、それでもあえて申し上げれば、少なくとも現状のアーキテクチャとその指数的速度向上を支持する計算機産業、およびその活用が続く限り、今後は最もハイエンドを含むHPCにおいて、コモディティのハードウェアを活用する以外feasibleな道はない、と断言したい。それはいわば高額で専用開発される大規模専用ベクトル並列計算機時代の終焉を意味し、コモディティ技術に基づいた大規模クラスタの時代がいやおうなしにやってくる、ということである。そして、そのとき最も中心とされる技術なのは、もはやハードウェア技術ではなく、ソフトウェア基盤であり、あるいはクラスタコンピューティングに対応したアルゴリズム、それをベースとした新世代のアプリケーション群である。HPCはそれら「ソフトウェア」に今後は研究開発のほとんどの努力を向けるべきである、と強く主張したい。以下に、その理由をソフトウェア屋の立場、また経済性の立場、などから述べよう。それによって、なぜソフト屋である筆者が大規模コモディティクラスタを構築するのに腐心するのかが明らかになれば幸いである。

まず、朴氏が述べられていたことに対しては、ほとんどの点については同意見である。我が国のHPCがASCIに代表される米国の大規模MPPに押されていること、 HPCの経済的パイが小さい現状ではベクトル機の新たな開発が難しいこと、ベクトル機の方がどちらかというと汎用性が高いこと、などである。しかし、朴氏はそれらの観測に基づき、従来型のベクトル機と比較してMPP&クラスタのキャッシュへの依存度の高さ、および高メモリスループットに支えられたベクトル技術の成熟さ、さらにクラスタの部品点数の増加によるMTBFや設置性の問題などから、今後もベクトル技術をHPCで捨てるべきではなく、クラスタはlow-end HPCのみに有効だとしている。本当にそうだろうか?

筆者には、まさにそのようなハイエンドベクトル偏重主義は戦艦大和(我々の世代は宇宙戦艦だったが)を引きずった第二次世界大戦の旧日本海軍的いわば巨砲 (Big Iron)主義に映る。そうではなく、もはや時代は機動性の高い超音速戦闘機 (Fast Commodity CPU)+空母(クラスタ)+哨戒システム(Software)に遷移していると主張する。ただし、これはアナロジーとしては感覚的には正しいが、技術的には無茶苦茶であるので、以降はクラスタがハイエンドからローエンドまであまねくハイエンド(つまり、超高額)ベクトル機を今後駆逐していく技術的な妥当性を述べていきたい。

今後のコモディティCPUの動向

まず、最初に断るが、筆者は別にベクトル技術が無用になると言っているのではない。そうではなく、スパコンにしか用いられないようなベクトルプロセッサを作っても、総合性能でクラスタに凌駕されると述べているのである。むしろ、ベクトル技術はすでにコモディティプロセッサにDSP的な処理の高速化の切り札として、すでに多く用いられている；PentiumIIIのSSE/SSE2, AMDの3D-Now!, PowerPC-G4のAltivec, AlphaのVisual Instruction Setなどである。これらはベクトル長は比較的短い、多くは単精度に制限される(SSE2以外)という制限を持つが、基本的にはベクトル/SIMD技術の応用であることに変わりない。単精度であれば、現状でもPeak性能は1Ghzで4GFlops (PentiumIII, SSE)にもなる (multiply-addの場合)。実行性能でも、Kentucky大学の700MhzのAMD Athlon × 64台のクラスタであるKlat2クラスタ(http://aggregate.org/KLAT2/)では、 3D-Now!でベクトル最適化したBLASで、64GFLOPS以上、つまり単体性能で1GFLOPS を超えている。さらに、2000年冬ごろ出荷されるPentium IIIの後継のIntel Williametteでは、SSE2で倍精度のSIMD計算もサポートしており、(演算ユニットの数によるが)ピーク性能は1.5Ghzで3GFLOPS～6GFLOPSと推定される。組み込み CPUでも、Sony/東芝のPlaystation 2内蔵のEmotionEngineはやはり同様の技術で単精度6Gflopsの性能を得る。

さらに、今後1-2年は、1) x86系のスタックベースのFP系の演算命令が、Intel, AMDともに排除され、より高速処理に向いたISAとアーキテクチャに変更される方向にある。Intelは先のSSE2であり、AMDは次世代のSledgehammer（K8）では通常のRISC流のExtended FP Instruction Setを採用すると発表している。詳細は不明であるが、当然多くのFPレジスタ、multiple issue, fused multiply-add、 prefetchなどを兼ね備えていると思われる; AMDによると、最もHigh-endのRISCプロセッサに対する実行ペナルティは10%以下だとしている。さらに、2) 競争による急激なDie shrinkとそれに伴うクロックの上昇、およびL2 Cacheの増加が挙げられる。以下は、Hans de Vries氏による今後のAMDとIntelのプロセッサのミクロンルールの微細化によるクロックの向上、およびダイ面積の変化である。

Mustang(Athlon Ultra) 	Willamette/Gallatin (Post Williamette)
180nm					1.3-1.7Ghz
					140mm2(256K)
					268mm2(1.5MB?)
150nm		1.3-1.7Ghz		1.5-1.9Ghz
		96mm2(512K)		97mm2(256K)
		120mm2(1MB)		186mm2(1.5MB?)
130nm		1.5-1.9Ghz
		72mm2(512KB)
		90mm2(1MB), ～120mm2(2MB)

最新のAthlon(Thunderbird)のダイ面積が約120mm2なので、2001年の0.13プロセス時には2Ghz, L2 2MB程度のプロセッサがコモディティの標準となる。ここで、 L2容量の急激な増加に注目されたい。.18から.13への移行によるトランジスタ数の増加は2倍程度であるが、ロジックのトランジスタ数は同じアーキテクチャならばそれほど増加しないので、その分がL2の増加に回せる；AthlonではMustangの増加は現状のThunderbird(256K)に対して4-8倍にもなる。大容量のL2は数値計算のピーク性能を維持するのに大変効果を発揮することが多い。

1), 2)を総合すると、コモディティプロセッサの倍精度演算のピーク性能は、 2002年には8GFOPS以上であり、SledgehammerのようにFPユニットが増える、あるいはベクトル演算が強化されれば10GFLOPSを軽く超えると予測される。よって、 2002年の時点で100node程度(数千万円程度)のクラスタでもピーク性能は軽く Teraflopsを超える可能性が高い。このような急速なコモディティCPUの性能向上にベクトルの開発は追いつくのであろうか? コモディティプロセッサの市場規模は数兆円であり、開発にはIntel, AMDなど各社莫大な数の人間が携わっていて、さらに最新のプロセス(SOI, Copper Interconnect)などが惜しみなく用いられ、毎月のように新しいアーキテクチャやクロックの高速化が発表されているのが現状である。これに対して、(プロセッサだけ見れば)市場規模が1/1000以下の従来型のスパコンがタイムリーに太刀打ちできるとは思えない。

It's the Bandwidth, Dammit----コモディティメモリバンド幅の劇的な向上

プロセッサのピーク性能が上昇しても、メモリバンド幅が向上しなければ、限られたアルゴリズムしか性能向上しない。かのSeymore CrayはHPCアーキテクチャの肝は "It's the Bandwidth"と言ったことで有名である。しかるに、現状のPCではメモリバンド幅は500MB/秒程度であり、一方スパコンはバンクメモリを駆使して数GB/秒以上である。このままではHPCの足かせになる。

しかし、良く知られているように、この1-2年ではコモディティにおいてもメモリバンド幅の急激な向上がある。一つはCPU性能の向上であるが、もう一つはグラフィックス性能の向上に大きな需要がある。PlayStation2はDual Channel DRDRAMを用い、メインメモリは3.2Gbyte/秒のバンド幅を持つ。Intelの Williametteも同様であり、Alpha 21364では4チャンネルで6.4GB/秒を誇る。一方、 PC系のグラフィックスカードや、AMD Athlonなどは DDR-SDRAMを用いる。現状では2.1GB/秒のPC2100が規格化されるが、Dual DRDRAM同様の3.2GB/秒のPC3200も規格化されようとしている。すでに3Dグラフィックスカードでは400Mhzの DDR-SDRAMを用いた6.4GB/secのカードがこの秋に登場予定である。さらに両陣営ともコスト削減とバンド幅向上に熾烈な戦いを繰り広げており、Quad-Data Rate のDRAMも規格化が検討されている。

無論、これらは従来のマルチバンクメモリと比較して、ランダムアクセス時のレーテンシが大きいなどの問題点がある；が、連続アクセスを行ったり、超高速なプロセッサ内の大容量L2キャッシュを使う、あるいはDMA転送を効果的に併用すれば、その莫大なバンド幅を生かせるであろう。すでにPentium IIIでは内部キャッシュバンド幅は32GByte/秒に達しており、レーテンシも7 clockである。ソフトウェアにおけるそれらの重要性は後述する。

　6GB/秒のメモリバンド幅を持つノードによって構成される100ノード程度のクラスタの祖総メモリバンド幅は600GB/秒である。これは「1FLOP:1MByte:1Mbyte/秒」とするかの「Oyanageeの法則」には多少足りないが、かなりスパコンに近いといえよう。

本当に高速ネットワークは必要なの?

ネットワークにおいても急激なコモディティ化は進行している。バンド幅の向上が例えばEthernetでは10倍づつなので実感しにくいが、2000年後半にはCopper の1000Base-TXが一般的になり、スィッチも急激に安くなっている。同時に、 10Gbit Ethernetの実験も成功しており、さらに多少高くはなるが、Myrinet, Giganetなどの高速かつスケーラブルなインタコネクトも存在する。肝心のI/Oバンド幅も、PCI-X、さらにはInfinibandで急激に向上する。総合的には、近年のネットワークのバンド幅の向上はMooreの法則を超えており、プロセッサの速度向上をも上回る。

無論、ハイエンドのネットワークはカードや個々のノードのI/Oは比較的急激に低価格になるが、スィッチはなかなか下がらないなどの問題もある。しかし、今や 2年前は下手をすると20-30万円した100Base-Tのスイッチが8990円で売られている。コモディティのチップセットが開発されると、premiumを払わなくてはならない CPU以外の周辺機器は(同程度のミクロンルールで製造されれば)劇的に価格が下がる傾向がある；これぞコモディティの恐ろしい性能向上のカギである。

さらには、本当にそれだけのネットワーク性能が必要かという観測もある。これは先のバンド幅の議論と多少矛盾するが、基本的にクラスタで並列化される数値アルゴリズムは本質的に何らかの局所データに対する反復処理を行い、全てのデータを通信しないものが多い。このような場合は、プロセッサの速度向上に対して、ネットワークの性能はそれほどなくても大丈夫である。例えば、単純な数値アルゴリズムを考えると

	問題サイズ			通信
EP	O(n)				O(1)
SOR	O(n^2)(ブロック化したタイル辺)	O(n)
Particle	O(n^2)				O(n)以下
(local interaction, 各プロセッサの粒子数)

このような場合は、プロセッサの性能向上による速度向上に対して、ネットワークの性能向上のオーダーは低い。例えば、Blocked SORにおいては、仮にプロセッサ速度が10倍になった場合、通信速度は3倍程度にしか向上しなくて良い。無論「現実のアプリケーションはそんなに単純じゃないぞ」「「ランダム通信はどうするんだ」とか「FFTのように細かい通信がいっぱいあったらレーテンシはどうするんだ」とかいろいろお叱りを受けるのは承知しているが、そのワーストケースを考えてハイエンドネットワークに湯水のようにお金を注ぐのがスパコンの発想であり、それらをハードウェアではなくソフトウェアやアルゴリズムで解決しようというのがクラスタの発想である。しかも実際、筆者らの実験では、現状のプロセッサでは、100Base-TでもNASPARのほとんどのベンチマークで、驚くほどの性能とスケーラビリティを発揮するが、それは上記の理由に追うところが大きいと筆者は考える。

じゃあ単にPCを並べればよいの?---It's the Software, Dammit!

では、今後ハイエンドPCを単に並べればスパコンにになるか? 答えはまだまだ Noである。朴氏も指摘しているが、現状のクラスタでは高度にチューニングされたそれ向きのアプリケーションは高性能が得られるものの、ベクトルスパコンほど汎用ではない。しかもSingle System Imageを実現するソフトウェアのロバスト性、コンパイラやランタイムやその他ツール郡を含む言語システムの性能・機能・安定性、I/OのSingle View化、MTBFを含む管理の容易性の向上などで、まだまだ長い年月をかけて開発されてきたベクトルスパコンには劣るといえよう。さらに、問題はアルゴリズムやアプリケーションであり、超高速な大容量キャッシュ +ショートベクトル処理+租粒度並列に対応した高性能数値アルゴリズムやアプリケーション、ならびにその記述を容易にするソフトウェア技術が必要である。

とどのつまり、今後のHPCは本当の大規模のものからローエンドまで、クラスタを是とすればあとはソフトウェアの研究開発の問題となる。それゆえソフト屋の活躍する場が出てくる；上記の問題は本質的にソフトウェア技術に対する大きなチャレンジであり、それを解決することによって、本質的に圧倒的にコストパフォーマンスが高く、かつテクノロジーカーブに載って性能が向上するクラスタがスパコンを一気に凌駕することは目に見えている。米国ではすでにそれが起こっており(それでもまだハイエンドのRISCに対するこだわりは強く、まだまだコストが高いが)、わが国は圧倒的に立ち遅れている。無謀なような主張に聞こえるかもしれないが、今後のHPCはハードウェアは「クラスタでいいじゃん」として、それ以外の本質的開発はほとんど全て(アプリやアルゴリズムを含む)ソフトウェアに勢力を注ぐのが肝要であると述べたい。例えば数値アルゴリズム屋さんも、キャッシュマネージメントをうまく行うようなアルゴリズム以外は今後実用的には無価値になる可能性を悟るべきであるし、アプリケーション屋さんもクラスタをターゲットとすることでユーザベースが圧倒的に広がるであろう。ソフトウェアと実用性という観点からは、クラスタはようやく夜明けが始まった、といった感じである。

誤解していただきたくないのは、決してハードウェアのハイエンドの新しい技術開発自身が無意味だと言っているのではない。そうではなく、それがコモディティに降りてくるようなビジョンや作戦がなければ、所詮はコモディティの急激な速度向上とコストパフォーマンスに負けてしまう、ということである。そこでは素晴らしいハードウェアだけではなく、それに付随したソフトウェアの開発コストも、コモディティに載っていないゆえ、回収できない。例えば、日立/筑波大の擬似ベクトル技術は素晴らしいものである；例えば、TOP500でのRPeakに対する性能を見ても、従来のベクトル計算機並みの効率を出しており、MPPやクラスタ計算機が50-60%程度の効率にとどまっているのとは対照的である(上記の理由により、今後はクラスタでも効率は向上する可能性はある)。が、現状では(日立のSHなどを含めて)コモディティプロセッサはそれを採用する動きは(少なくとも筆者の知る限りは)無く、結局は従来型のベクトル計算機と同じコスト構造になってしまっている。一方、EEを含むコモディティプロセッサはSIMD型のベクトル技術を採用し、成功を収めているが、擬似ベクトルを使えない積極的な理由は見当たらない。今後のFPが増加する可能性の高いコモディティプロセッサにとって、せめて Preload (キャッシュをバイパスするload)でもあれば、高速なL1へのspillと併用して擬似ベクトルに近い恩恵に預かれるのであるが。しかるに、Intelと日立は双方ともそれぞれのベクトル技術に対して自動ベクトル化コンパイラを開発しているが、IntelのコンパイラはVTuneのパッケージに含まれており、数十万～百万人のデベロパと数億人のユーザが恩恵に預かれるのに対して、同じ程度の手間とお金をかけたであろう日立のコンパイラは、わずか数十～数百台のSR2201/SR8000のインストレーションにしか益をもたらしていないのである。擬似ベクトルをコモディティ化するという計画があれば、それは大変好ましい選択であると考える。

おわりに: 地球シミュレータに勝てるの?

最後に、地球シミュレータに「勝つ」クラスタを考えると、2003年に仮に.10ミクロンに移行出来たとすると、その時点ではクロックは2.5Ghz以上、また64bitアーキテクチャが主流になり、コモディテイでもより強力なFPやベクトル処理とあいまって、単体性能は10-20GFLOPSを超えると考えられる。20GFLOPSとすると、ピーク性能比較では2000台で地球シミュレータに匹敵する。無論実行性能は別問題だが、現状のASCI Redの1/5のサイズで良いのである。それがコモディテイの進歩の恐ろしさでもあり、それゆえそのソフトウェアが重要になる。しかるに、ソフト屋の筆者がクラスタを構築する所以である。

　もっとも、これからはJJとか、量子コンピュータとかの天変地異が起こるかもしれない。その時はその時でソフト屋は失業しないのである。。。

(2000.6.20)

これでいいのか？日本のスパコンＸＸ

関口智嗣　／通商産業省工業技術院先端情報計算センター

「これでいいのか？日本のスパコン」において、朴先生はクラスタごとき積み木細工の安易な（知恵のない！）成金趣味的性能至上主義を謙虚に批判し、スパコンアーキテクチャの行く末を憂いた。スパコンのあるべき姿は「自然界をそのまま模倣するし、神の意志を忠実に再現する神器であれ」という教え（出典：PAX Parallel 教団聖典）を盲目的に信奉すると、やはり「クラスタごとき」庶民的なシステムは受け容れ難いものだろう。本来の教義の解釈は若干異なるのだが、それは長くなるのでここでは触れない。スパコンとは時代の先端を行く高尚なアーキテクチャ、門外不出の詳細なハードウエア仕様、霧とベールに包まれたマシン室、決して手に入れることのできない定価表、伝説の最適化パラメータ、呪術のようなディレクティブとコンパイラオプション、人生を掛けたプログラミング、などの教えを次々と伝授されることによって、経験値を積み、初めて拝ませていただける資格が得られるという、とてもありがたい存在である。したがって、「クラスタごとき」庶民のアーキテクチャ、全部動作が見えちゃう恥じらいのないＯＳ、神秘性のないおっぴらけのＯＳだと所詮、たかが知れてるってことですよ。「神の国」日本においては崇高な科学技術計算の象徴的意味合いにおいて、これからも伝統工芸品としてスパコンを製造し続けなければならないというのが、隠された真意であったのだろう。

これでいいのか？日本のスパコンユーザ

第１世代のスパコンユーザ（CRAY-1）や第２世代(CRAY-X/MP, S810, VP200, SX-2) からの筋金入りのユーザは、今でも実力・経歴とも尊敬に値するもので、数々のシステムにおける逸話の語り部であったりする。一言一句に時代と歴史を感じさせる重みがある。

しかし、今のユーザはどうだ。９０年代の補正予算で次々と導入されたスパコンが、ふるさと創生ではないが全国津々浦々に配備され、誰でもが気軽に触れるようになってしまった。修行なんて必要なし。手元のワークステーションよりちょっと速いからというだけの理由でスパコンを乗り回されたんじゃ困ります。スパコンは遠くにありて思うもの。決して、CPU時間じゃぶじゃぶな環境にユーザを漬け込んじゃいけません。彼らは、スパコンに「触れた」ことを「神の領域に達した」と勘違いし、選民意識だけを引き継いでしまった。その実、やっていることはスパコンのファミコン化、すなわち購入してきたソフトウエアをカパチョンとセットして、時間のある限りそれと戯れている。ちょっとずつ違うインプットデータを入れては、答えを待つ。確かに、スパコンを使っているが、そこには神器に触れているという感慨も厳粛さも、ましてや神秘性など感じる術もない。このようなユーザにはクラスタでも喰らわしておけば十分である。

ん、まてよ、クラスタやASCIなシステムはとある国の得意とする分野。そして、ここでのファミコンソフトは、本当のファミコンソフトが日本製なのと違って、ほとんど輸入に頼っているもの。これは、日本における産業基盤ソフトウエア、半導体・代替エネルギー・環境・新材料・薬物等の産業における設計・製造・実験などに計算科学的手法を取り入れたソフトウエア、も輸入超過にして、技術の空洞化を誘発し、同時に日本が得意としていたスパコンアーキテクチャを壊滅的に葬り去る戦略かも知れない。

先進的ユーザ諸君、日本の産業技術の空洞化を救うのは君たちだ。早く目を覚ましてくれ。スパコンとパソコンを比較して、性能の良否を議論しないでくれ。マシンの、コンパイラの、ネットワークの、ファイルの、ライブラリの（あぁ、列挙していて虚しい）挙動が怪しいからといって、スパコンベンダーに対して勝ち誇ったような言い方をしないでくれ。歩みは遅くとも、彼らは神の使いとして全知全霊を傾けているんだ。せっかく、潤沢な計算資源をもらったのだから、もったいないお化けが出るなど言わずに、全部を使い切ってみてくれ。情報の人たちを「なんで、最適化なんかで論文が書けるの？どこがサイエンスなの？」などと見下さず、耳を傾けてみてくれ。本当の敵はそこにはいない。

これでいいのか？日本のスパコンセンター

日本のスパコンセンターって、実は難しい。確かにスパコン（今の定義によれば１００GFLOPS以上）を保有する計算センターは国立のものだけでも旧七帝大に設置された共同利用施設をはじめとして、科学技術庁研究所関連、通商産業省工業技術院関連など２０を越える。TOP500によれば高エネ研、東大、物性研、名大、京大、工技院先端情報計算センター、筑波大計物センター、理研、分子研、気象研、東北大、金材研、航技研、北大、統数研、地球フロンティア、東工大、核研、阪大、九大、原研、などである。これらの計算センターのうちほとんどは（当然であるが）特定ユーザのためのサービスであり、それぞれの企画・運営は良い意味で孤高を誇っている。

しかし、米国のスパコンセンターのリストラを見よ。米国ではNPACI(National Partnership for Advanced Computational Infrastructure) という全米仮想計算基盤センターとしてサンディエゴスーパーコンピュータセンター(SDSC)を中心に再構成を行った。実際の計算機は全米に分散配置されているが、これらを統一的に見せる仕掛けを作って、ユーザからはあたかも単一システムのように見えている。大学や国立研究所等で開発された萌芽的ソフトウエアやツールの中で実戦配備に役に立ちそうなものをThrust Areaとして数千万円規模の開発費を渡し、成果物をNPACIに導入するという手法を用いている。これによりNPACI が主導的に「世の中にすぐに役立つ技術」を選定している。これにより、メタコンピューティング、グリッドといったセンター間やサイト間に跨った計算機利用技術も非常に現実的なものとして議論がされている。

翻って日本ではどうか。たとえば、つくば地域で高速ネットワークを引いて、お互いのスパコンをちょこっとずつ時間貸し借りするような実証的実験をしませんか？とある会議で提案したときの反応は（１）他のサイトに貸すCPU時間があることが会計検査院にばれると困る［でも、ファミコンのようなCPUの使い方をして資源を浪費するくらいなら］、（２）セキュリティ、そうセキュリティが大変なんだよ［もちろん、そのとおりですが、それが研究課題なんだけどな］（３）あちこちのスパコン使ってもねぇ、ユーザは面倒だと言っているよ［だから、ミドルウェアの研究と配備を積極的に実証することが必要なんですよ！！］とまぁネガティブな反応ばかりであった。

しかし、これでは積極的に新しいネットワーク・ＩＴ技術の導入を図っている諸外国との格差は拡がるばかり。少なくとも先端情報計算センターは独立法人化に向けてのビジネスを展開しないと運営費が未来永劫保証されるものじゃない。通商産業省的に言えば今までの限られたユーザばかりでなく、新規産業創出を企てる中小企業にもスパコン利用機会の提供を与えることで産業基盤の強化をはかり、スパコン利用の実需を掘り起こす必要があるのではないか。これで、高々数百億円といわれるスパコン市場を拡大していくことができるのではないか。スパコン技術の独立採算では赤字だそうだか、こうした市場拡大の努力をスパコンセンターも協力するべきではないだろうか。このことが、スパコンベンダの体力強化となり、センターにも世界に誇れる素晴らしいモンスターが導入されることになるだろう。

これでいいのか？日本のスパコンプロジェクト

ここ数年、未曾有のHPC(High Performance Computing)技術への追い風が国内外で吹いている。陽の目の当たらなかった当時の「数値解析研究会」を「ハイパフォーマンスコンピューティング研究会」への衣替えに関わった一人として、感慨に耽るものがある。とはいえ、未だ客観的に過去を振り返って語れるような時代ではないし、まだ小生も現役としてまだまだこの分野への貢献をしていきたいと考えている。

例えばスパコン大プロなどかつては独自のハードウエアを中心とし、その回りのソフトウエア群を開発し、応用問題を載っけてお終いというシステム開発型のプロジェクトスタイルが典型的であった。しかし、（１）ハードウエアやアーキテクチャの詳細は非公開、（２）世の中のトレンドを見ないソフトウエアは特殊仕様で融通が利かない、（３）人材がどこで育っているのかわからない、ということで、プロジェクト終了後、じわぁーっと来るものが少ないのが常であった。今ではとてもはやらないスタイルである。

その点、米国の（とばかり言うのは気が引けるが）をモデルとしつつ、（１）公開型のプラットフォームで「ミニ版」は研究参画者でも手が届く範囲で利用可能、（２）独断でなく世の中のトレンドを意識したソフトウエアの開発技術と汎用化、（３）特定のサイトに閉じず大学、研究所における人材育成、（４）マイクロプロジェクトを多数作らないようにプロジェクトのコーディネーション（５）応用分野とのEqual Partnership と技術の橋渡し、（６）国内外への積極的な情報公開、（７）公平なプロジェクト評価システム、が期待されるのではないか。この追い風に乗っていくつかのプロジェクトが立ち上がってくるかも知れないが、「HPCって、スパコンって、なぁーんだ」と指さされないように、産学官で力を合わせて頑張っていきましょう。我々の未来のために。

(2000.6.20)

It's still the Bandwidth!

朴泰祐　／　筑波大学電子・情報工学系/計算物理学研究センター

スパコン話に予想以上の反応があり嬉しい悲鳴をあげている。渡辺氏・松岡氏・関口氏の各視点からの意見を面白く読ませて頂いた。

結局「スパコンはやっぱりバンド幅」という結論は変わらないようだ。渡辺氏の意見はもちろんのこと、松岡氏の意見も裏を返せばクラスタが適用できるのはメモリバンド幅を食わない、あるいはそれを隠せるアプリ、ということになる(「コモディティのバンド幅は増えてるぞ」と主張しているが、まだまだ不足)。スパコンに金がかかっているのはまさにこの点であり、SSEやらEmotion EngineのSIMD命令があっても「釈迦の掌」でしか動けない。掌を大きくするか、少なくとも大きく見せる工夫が必要だ(本誌1999年9月号のインタラクティブ・エッセイの中村氏の意見にも関係する)。結局は適材適所ということになってしまうかもしれないが、まだまだ当分はスパコンとクラスタの棲み分けは続きそうだ。また、スパコン技術のバックアップのためには単にメーカを後押ししてマシンを作らせるだけでは駄目、という関口氏の意見もよくわかる。単純な「護送船団方式」ではない将来を見据えたプロジェクトは重要だろう。

日本が何らかの形でスパコン技術的に世界をリードして欲しいという思いは皆さん共通のようだ。限られた紙面ではこの程度のまとめしか書けないが、このテーマはまだまだWWW上で続いてほしいと思う。頑張れ、日本のスパコン！

(2000.6.22)

このページの記事に関するご意見を次のところにお寄せください．インタラクティブ・エッセイ・エディタ・グループが掲載に相応しいと判断したご意見は，編集してこのページに掲載するとともに，著者とコメンテータに取り次ぎます．
interessay@ipsj.or.jp

Copyright(c) 1999 Information Processing Society of Japan