ベクタープロセッサーは必要か?
次世代日の丸スパコンはベクタープロセッサ部とスカラープロセッサー部で構成されるハイブリッド構成のスパコンで、ヘテロジニアス構成とも呼ばれることがある。目標はLINPACKで10PFLOPSで、2010年末までに運用を開始し、2011年6月のTop500で1位にランクされ、同時に、HPCCベンチマークの中の主要4項目でもトップにランクされることとなっている。
<ベクタープロセッサーの市場シェア>
現在、スパコンの流れは完全にスカラープロセッサーであり、Top500のうち、わずか6台(1.2%)がベクタープロセッサーである。当然、流通するソフトウエアもほとんどがスカラー用のプログラムであり、ベクタ型を前提とした新規プログラムを開発するのは、世界でも極めて限られた一握りのべクタースパコンを保有する組織においてだけである。世界中の若い世代のスパコン使用者達にとって、ベクタースパコンは過去の遺物に過ぎず、スカラースパコンを当たり前と思って使用しており、この世界の流れを変えることは不可能と思える。
シェアが上がらない第1の理由は、べクタープロセッサーの設置運営管理を含むトータル・コスト高をベクタープロセッサーのアドバンテージ(もしあるとするなら)でジャスティファイできないためである。第2の理由は、パソコンとの共通性がなく、何処と無く使い難い印象があるからであろう。
現在、世界でベクタ型プロセッサーを供給しているのはNECとCRAYだけである。Top500の中のベクター型スパコンをリストアップしたものが以下である。 (Max=実行性能、Peak=理論性能、TF=TFLOPS)
20位 地球シミュレータ/NEC-SX-6 (5120CPU)
Max 35.86TF、Peak 40.96TF、実行効率 87.55%
53位 韓国気象庁/Cray-X1E
Max 15.71TF、Peak 18.44TF、実行効率 85,20%
58位 オークリッジ研究所/Cray-X1E
Max 14.96TF、Peak 18.33TF、実行効率 81.61%
108位 シュトゥトガルト大/NEC-SX8
Max 8.92TF、Peak 9.22TF、実行効率 96.75%
489位 仏気象庁/NEC-SX-8R
Max 4.06TF、Peak 4.51TF、実行効率 90.02%
490位 仏気象庁/NEC-SX-8R
Max 4.06TF、Peak 4.51TF、実行効率 90.02%
NECは地球シミュレータのSX-6の後、SX-7、SX-8、SX-8Rと改良をかさね、SX-6のCPU当たり8GFLOPSからSX-8Rの35.2GFLOPSへ性能向上を図り、現在CPU当たり100GFLOPS超を開発中としている。
CRAYのX1EはCPU当たり4.5TFLOPS、これを4つまとめた実装モジュール(MSP)で18GFLOPSを単位としていたが、このMSPモジュールを1チップにした20GFLOPの後継機Blackwidowを2007年後半に出荷すると発表している。
<実行効率>
ベクター型の最大の長所は実行効率の高さである。巨大システムにおいてもPeakの80%超の高い実行効率を示しており、小振りなサイズになるとNECの場合は90%超の値を示している。
逆に欠点は、消費電力、発熱、設置面積などで、コストはかなり高い。地球シミュレータの消費電力の約7MW、3,250平米という数値は、「省エネの日本としたことが」と驚くほど米国流である。TF当たりの消費電力が175KWということは、その後のSX-8で半減、さらにSX?8Rでさらに半減しても、およそ44KWで、BG/Lの5.45KW、BG/Pの推定2.9KWとは1桁違う数値である。又、設置面積もラック数で言ってもESは320ラック、BGLは64ラックで5倍であり、総平米で言うと8倍である。
こうしたハンディを実行効率とプログラム作成の容易さなどで正当化できたかというと「No」である。採用されたのはTop500の1.2%と言うことである。
では本当にベクター型はスカラー型に比べて実行効率が高いのかという点に関しては、5-6年くらい前までは事実であった。しかし現在では事実ではなくなっているのである。2007年6月のTop5の実行効率を調べてみると以下のとおりである。
第1位 LLNL BGL-64ラックシステム (131,072コア)
Max 280.6TF、Peak 367.00TF、実行効率 76.46%
第2位 オークリッジ研究所(ORNL) Jaguar Cray XT4-Opteron Dual (23,016コア)
Max 101.7TF、Peak 119.35TF、実行効率 85.21%
第3位 サンディア研究所(SNL) RedStorm Cray XT3-Opteron Dual (25,544コア)
Max 101.4TF、Peak 127.41TF、実行効率 78.59%
第4位 IBM ワトソン研究所 BGL
Max 91.29TF、Paek 114.69TF、実行効率 79.60%
第5位 ストーニ・ブルックへイブン研究所 BGL
Max 82.16TF、Peak 103.22TF、実行効率 79.60%
第1位のBGLは13万CPUコアで76.5%であり、1ラック2,048CPUコアでは82.2%である。第2位のORNLのJaguarはCrayのXT4-Opteron Dualでトータル23,016コアを結合し85.2%である。第3位のRedStormもCrayのXT3-Opteron Dualで26,544コアを結合して78.59%である。XT3 とXT4の違いは、CrayのSeaStarという3次元トーラス型Interconnectの改良とCPUクロックが2.4GHZから2.6GHZに増加したことである。クロック増は実行効率には結びつかないので、Interconnectの改良が実行効率の増加に結びついたものと思える。
このXT4のように、最近のスカラー型はLINPACKにおいてはベクター型と遜色のない実行効率を示すようになってきており、ベクター型が飛び抜けて実行効率が高いと言うわけではなのである。このことは、スーパースカラー、マルチコア、Hypertransportの時代では、従来の「ベクターかスカラーか」と言ったアーキテクチャー的路線論争はあまり意味が無く、適正に設計がなされれば、スカラー型もベクター型と同じような効率を示すことが出来るということを物語っているのである。
<HPCC 主要ベンチマークデータ>
TOP500のベンチマークは技術計算の中で使用頻度が高い行列計算による連立方程式を解くLINPACKでの性能評価である。 しかし実際の計算では、LINPACKだけでなく、様々な計算法やデータ処理が組み合わされて行われるため、Linpackによる性能とはかけ離れた低い性能になってしまうのである。このためDARPAは実使用での性能をよりよく反映するベンチマークを作成するプロジェクトを推進し、HPCCベンチマークを作成した。HPCCはサブルーティンとしての各種データ移動や行列演算などと、アプリケーションとしてLINPACKのほか高速フーリエ変換など、8つのベンチマークプログラムで構成されている。その中の、G-HPL(Linpack)、G-FFTE(高速フーリエ変換)、G-Random(メモリのランダムアクセス)、STREAM(データのコピー)の4項目に対しては順位が付けられAwardが贈られることになっている。
| HPCC as of 2007/Jul/8 | |||||||||
| Clock | #Proc | Peak | HPL | HPL | FFTE | Random | STREAM | ||
| GHZ | TF | /Peak | TF | GF | GB/s | GB/s | |||
| SX8 | 2.00 | 576 | 9.22 | 86.9 | 8.009 | 160.950 | 0.019 | 23555.8 | |
| 1.000 | 20.097 | 0.002 | 2941.3 | ||||||
| XT3 | 2.60 | 1100 | 5.72 | 82.7 | 4.728 | 328.280 | 0.304 | 5161.1 | |
| 1.000 | 69.438 | 0.064 | 1091.7 | ||||||
| SX8/XT3 | 0.29 | 0.04 | 2.69 | ||||||
表の両機の下段の値はG-HPLを1TFLOPSとした場合の換算値である。この換算値で比較してみると、SX8はXT3(Opteron)に比べSTREAM(データ移動、コピー)は2.69と速いが、ランダムアクセスは0.04でしかなく、その結果、フーリエ変換の計算では0.29でしかないことがわかる。
つまり、現在の実測性能データから見る限り、ベクター・プロセッサはLinpack(行列計算)の実行効率においても、フーリエ変換の計算においても、スカラー・プロセッサーを圧倒するような性能を示しているわけでは無く、逆に全般的に押され気味なのである。
<価格>
2006年のSX-8Rの発表文書によれば、最低リース価格は税抜きで月額115万円となっており、最小システムはシングルノードで281.6GFLOPSである。リースの償却期間を少なめに3年と見積もっても、買い取りで4,140万円ということになり、TFLOPS当たり1億5千万円程度と推定される。
スカラー型で、2008年までに1PFLOPS前後を目指しているシステムの契約価格をリストすると以下のようになる。
ORNL 127TF+1PF $200M $177.5K/TF(¥2,130万/TF)*
Jaguar+1PF後継機(Opteron Quad)
LANL 1.6PF $100M $62.5K/TF(¥750万/TF)**
Roadrunner (Opteron+Cell)
TACC 519GF $59M $113.7K/TF(¥1364万/TF)
Opteron Quad
(TACC:テキサス大学先進コンピューティング・センター)
ANL BG/P 1PF ?
(LLNL BG/L 360TF $90M $245.2K/TF(¥2842.8万/TF)
* ORLNのJaguarはOpteron Dualコアで2007年に設置済みで、後継機は新たにOpteron Quadコアで作成する。$200Mには両方が含まれているが、その分配比率は不明なため単純合算した。実際には、現Jaguarに半分に近い費用が掛かっていると思えるので、後継機のTF単価は2千万を切っているものと思える。
** Roadrunnerの契約価格は初年度$35Mとだけ発表されていたと記憶する。上記リストの数値はLANLの予算書の中に含まれていた数値を取り出したもので、こちらは2007年度$25M、2008年度$75Mとなっている。
ORNLのJaguarもLANLのRoadrunnerも契約価格的に推定要素が含まれているが、TACCのRangerは明快である。以前に述べたようにハード$30M,、ソフト$29M、合計$59Mであるので、TFLOPS単価はソフト込みで1,400万程度、純ハードウエアだけでは約700万である。JagaurやRoadrunnerを考慮すると、2007-2008のスカラー型大型スパコンのTFLOPS単価は概ね1,000ー2,000万といったところと思える。
このスカラー型の単価とSX-8Rの単価を比べると、概ね1桁違っている。実行効率、ベンチマークデータなどからして、べクター型が取り組まなければならないのは、この価格差であり、少なくとも、スカラー型と同程度の価格帯に納まらなくてはシェアの回復は難しい。加えて、運用面での消費電力や設置面積の改善も必須で、これらが改善されなければ、自由競争の世界で生き残ることは難しいといわざるを得ない。
<アーキテクチャー>
ベクタープロセッサーの特徴はRISCやスーパースカラー出現以前に多段式のパイプラインをSIMDに適用し、パイプラインのデータ待ちアイドリングを避けるため大量のレジスターファイルを確保した点にある。演算処理はレジスター・ベースの命令のみで、レジスターへのデータのロードストアとは分離処理し、1クロック1データ処理(演算)で高速化を図ったのである。その後、ベクターCPUは複数のパイプライン(演算器を含む)を持つようになり、SIMDの並列構造として現在に到っている。
一方、スカラー系は、論理的には、RISCにより1クロック1演算になった時点でベクターCPUと同じ基盤に立ったことになり、性能の差異はベクターかスカラーかと言うことでなく、単に保持する演算器の数によることになる。スカラー系はスーパースカラーによりコア内に複数演算器接続が可能になり、さらにマルチコアでスパースカラーの並列構造化が可能になった。
たまたま、スカラー系は代表的CPUであったPentiumやK8までのOpteronが、歴史的経緯からSSEを持っていたため、2FPU構成をとれなかったのであるが、CoreマイクロアーキテクチャやK10アーキテクチャーになり、SSEを改良し、2FPU構成と同等にしたため、理論的にはマルチコアの方がベクターCPUより演算性能が高くなるという逆転現象が起きているのである。
ここで問題となるのがデータの供給の問題である。マルチコアの高速CPUとなるとデータ供給が追いつかなくなる可能性があるのである。しかしOpteronのHypertransportのようなクロスバー型制御で最大32bitで2.6GHZ転送(V2.0)と言うようなPoint-to-Pointで高バンド幅のバス制御が使用されると、コア数が増加しても、ビット幅を増やすなどの対応が可能であるので、データ供給も全体としてどうにか供給可能なレベルになっていると思えるのである。
従って、近い将来に8コア、16コアの出現が予想されている昨今、スカラー・プロセッサーの性能は順調に伸びてゆくものと期待できるのである。
<べクタープロセッサーは必要か?>
以上、性能的にも、価格的にも、アーキテクチャー的にも、合理的に考えればベクター型を次世代日の丸スパコンの一方の柱にしなければならない積極的理由は見当たらない。スカラー部だけでなぜ不十分なのだろうか? 目標はLINPACKで10PFLOPSなどの実現である。今回理研が提出してきた概要設計は、この目標に対し必要十分なスリムな設計になってるのか? 各部はその存在不可欠な理由を10ペタ実現との関連で説明できるのか?
今回の評価報告書では、一切、この件に関する評価(審査)はなされていない。 ぜひとも、数値データに裏付けられた明確なお答えを伺いたいものである。
※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
メンバー限定サービスをご利用いただく場合、このページの上部からログイン、またはCNET_ID登録(無料)をしてください。