最終更新時刻:2008年8月8日(金) 8時14分

1

次世代日の丸スパコン(2)  ベクタープロセッサーは必要か?

公開日時:
2007/07/19 13:45
著者:
能澤 徹

ベクタープロセッサーは必要か?

 次世代日の丸スパコンはベクタープロセッサ部とスカラープロセッサー部で構成されるハイブリッド構成のスパコンで、ヘテロジニアス構成とも呼ばれることがある。目標はLINPACKで10PFLOPSで、2010年末までに運用を開始し、2011年6月のTop500で1位にランクされ、同時に、HPCCベンチマークの中の主要4項目でもトップにランクされることとなっている。

<ベクタープロセッサーの市場シェア>

 現在、スパコンの流れは完全にスカラープロセッサーであり、Top500のうち、わずか6台(1.2%)がベクタープロセッサーである。当然、流通するソフトウエアもほとんどがスカラー用のプログラムであり、ベクタ型を前提とした新規プログラムを開発するのは、世界でも極めて限られた一握りのべクタースパコンを保有する組織においてだけである。世界中の若い世代のスパコン使用者達にとって、ベクタースパコンは過去の遺物に過ぎず、スカラースパコンを当たり前と思って使用しており、この世界の流れを変えることは不可能と思える。
 シェアが上がらない第1の理由は、べクタープロセッサーの設置運営管理を含むトータル・コスト高をベクタープロセッサーのアドバンテージ(もしあるとするなら)でジャスティファイできないためである。第2の理由は、パソコンとの共通性がなく、何処と無く使い難い印象があるからであろう。

 現在、世界でベクタ型プロセッサーを供給しているのはNECとCRAYだけである。Top500の中のベクター型スパコンをリストアップしたものが以下である。  (Max=実行性能、Peak=理論性能、TF=TFLOPS)

20位 地球シミュレータ/NEC-SX-6 (5120CPU)
      Max 35.86TF、Peak 40.96TF、実行効率 87.55%
53位 韓国気象庁/Cray-X1E 
      Max 15.71TF、Peak 18.44TF、実行効率 85,20%
58位 オークリッジ研究所/Cray-X1E
      Max 14.96TF、Peak 18.33TF、実行効率 81.61%
108位 シュトゥトガルト大/NEC-SX8
      Max 8.92TF、Peak 9.22TF、実行効率 96.75%
489位 仏気象庁/NEC-SX-8R
      Max 4.06TF、Peak 4.51TF、実行効率 90.02%
490位 仏気象庁/NEC-SX-8R
      Max 4.06TF、Peak 4.51TF、実行効率 90.02%

 NECは地球シミュレータのSX-6の後、SX-7、SX-8、SX-8Rと改良をかさね、SX-6のCPU当たり8GFLOPSからSX-8Rの35.2GFLOPSへ性能向上を図り、現在CPU当たり100GFLOPS超を開発中としている。
 CRAYのX1EはCPU当たり4.5TFLOPS、これを4つまとめた実装モジュール(MSP)で18GFLOPSを単位としていたが、このMSPモジュールを1チップにした20GFLOPの後継機Blackwidowを2007年後半に出荷すると発表している。

<実行効率>

 ベクター型の最大の長所は実行効率の高さである。巨大システムにおいてもPeakの80%超の高い実行効率を示しており、小振りなサイズになるとNECの場合は90%超の値を示している。
 逆に欠点は、消費電力、発熱、設置面積などで、コストはかなり高い。地球シミュレータの消費電力の約7MW、3,250平米という数値は、「省エネの日本としたことが」と驚くほど米国流である。TF当たりの消費電力が175KWということは、その後のSX-8で半減、さらにSX?8Rでさらに半減しても、およそ44KWで、BG/Lの5.45KW、BG/Pの推定2.9KWとは1桁違う数値である。又、設置面積もラック数で言ってもESは320ラック、BGLは64ラックで5倍であり、総平米で言うと8倍である。
 こうしたハンディを実行効率とプログラム作成の容易さなどで正当化できたかというと「No」である。採用されたのはTop500の1.2%と言うことである。

 では本当にベクター型はスカラー型に比べて実行効率が高いのかという点に関しては、5-6年くらい前までは事実であった。しかし現在では事実ではなくなっているのである。2007年6月のTop5の実行効率を調べてみると以下のとおりである。

第1位 LLNL BGL-64ラックシステム (131,072コア)
        Max 280.6TF、Peak 367.00TF、実行効率 76.46%
第2位 オークリッジ研究所(ORNL) Jaguar Cray XT4-Opteron Dual (23,016コア)
      Max 101.7TF、Peak 119.35TF、実行効率 85.21%
第3位 サンディア研究所(SNL) RedStorm Cray XT3-Opteron Dual (25,544コア)
      Max 101.4TF、Peak 127.41TF、実行効率 78.59%
第4位 IBM ワトソン研究所 BGL                  
      Max 91.29TF、Paek 114.69TF、実行効率 79.60%
第5位 ストーニ・ブルックへイブン研究所 BGL         
     Max 82.16TF、Peak 103.22TF、実行効率 79.60%

 第1位のBGLは13万CPUコアで76.5%であり、1ラック2,048CPUコアでは82.2%である。第2位のORNLのJaguarはCrayのXT4-Opteron Dualでトータル23,016コアを結合し85.2%である。第3位のRedStormもCrayのXT3-Opteron Dualで26,544コアを結合して78.59%である。XT3 とXT4の違いは、CrayのSeaStarという3次元トーラス型Interconnectの改良とCPUクロックが2.4GHZから2.6GHZに増加したことである。クロック増は実行効率には結びつかないので、Interconnectの改良が実行効率の増加に結びついたものと思える。
 このXT4のように、最近のスカラー型はLINPACKにおいてはベクター型と遜色のない実行効率を示すようになってきており、ベクター型が飛び抜けて実行効率が高いと言うわけではなのである。このことは、スーパースカラー、マルチコア、Hypertransportの時代では、従来の「ベクターかスカラーか」と言ったアーキテクチャー的路線論争はあまり意味が無く、適正に設計がなされれば、スカラー型もベクター型と同じような効率を示すことが出来るということを物語っているのである。

<HPCC 主要ベンチマークデータ>

 TOP500のベンチマークは技術計算の中で使用頻度が高い行列計算による連立方程式を解くLINPACKでの性能評価である。 しかし実際の計算では、LINPACKだけでなく、様々な計算法やデータ処理が組み合わされて行われるため、Linpackによる性能とはかけ離れた低い性能になってしまうのである。このためDARPAは実使用での性能をよりよく反映するベンチマークを作成するプロジェクトを推進し、HPCCベンチマークを作成した。HPCCはサブルーティンとしての各種データ移動や行列演算などと、アプリケーションとしてLINPACKのほか高速フーリエ変換など、8つのベンチマークプログラムで構成されている。その中の、G-HPL(Linpack)、G-FFTE(高速フーリエ変換)、G-Random(メモリのランダムアクセス)、STREAM(データのコピー)の4項目に対しては順位が付けられAwardが贈られることになっている。


HPCC   as of  2007/Jul/8
Clock #Proc Peak    HPL      HPL   FFTE   Random STREAM
GHZ TF /Peak        TF      GF     GB/s      GB/s
SX8 2.00 576 9.22 86.9 8.009 160.950 0.019 23555.8
1.000 20.097 0.002 2941.3
XT3 2.60 1100 5.72 82.7 4.728 328.280 0.304 5161.1
1.000 69.438 0.064 1091.7
SX8/XT3 0.29 0.04 2.69

 表の両機の下段の値はG-HPLを1TFLOPSとした場合の換算値である。この換算値で比較してみると、SX8はXT3(Opteron)に比べSTREAM(データ移動、コピー)は2.69と速いが、ランダムアクセスは0.04でしかなく、その結果、フーリエ変換の計算では0.29でしかないことがわかる。
 つまり、現在の実測性能データから見る限り、ベクター・プロセッサはLinpack(行列計算)の実行効率においても、フーリエ変換の計算においても、スカラー・プロセッサーを圧倒するような性能を示しているわけでは無く、逆に全般的に押され気味なのである。

<価格>

 2006年のSX-8Rの発表文書によれば、最低リース価格は税抜きで月額115万円となっており、最小システムはシングルノードで281.6GFLOPSである。リースの償却期間を少なめに3年と見積もっても、買い取りで4,140万円ということになり、TFLOPS当たり1億5千万円程度と推定される。

スカラー型で、2008年までに1PFLOPS前後を目指しているシステムの契約価格をリストすると以下のようになる。

ORNL 127TF+1PF $200M $177.5K/TF(¥2,130万/TF)
Jaguar+1PF後継機(Opteron Quad)

LANL  1.6PF     $100M $62.5K/TF(¥750万/TF)**
Roadrunner (Opteron+Cell)

TACC 519GF    $59M  $113.7K/TF(¥1364万/TF)
Opteron Quad
(TACC:テキサス大学先進コンピューティング・センター)

ANL BG/P     1PF  ?
(LLNL BG/L 360TF  $90M $245.2K/TF(¥2842.8万/TF)

 

* ORLNのJaguarはOpteron Dualコアで2007年に設置済みで、後継機は新たにOpteron Quadコアで作成する。$200Mには両方が含まれているが、その分配比率は不明なため単純合算した。実際には、現Jaguarに半分に近い費用が掛かっていると思えるので、後継機のTF単価は2千万を切っているものと思える。
** Roadrunnerの契約価格は初年度$35Mとだけ発表されていたと記憶する。上記リストの数値はLANLの予算書の中に含まれていた数値を取り出したもので、こちらは2007年度$25M、2008年度$75Mとなっている。

 ORNLのJaguarもLANLのRoadrunnerも契約価格的に推定要素が含まれているが、TACCのRangerは明快である。以前に述べたようにハード$30M,、ソフト$29M、合計$59Mであるので、TFLOPS単価はソフト込みで1,400万程度、純ハードウエアだけでは約700万である。JagaurやRoadrunnerを考慮すると、2007-2008のスカラー型大型スパコンのTFLOPS単価は概ね1,000ー2,000万といったところと思える。

 このスカラー型の単価とSX-8Rの単価を比べると、概ね1桁違っている。実行効率、ベンチマークデータなどからして、べクター型が取り組まなければならないのは、この価格差であり、少なくとも、スカラー型と同程度の価格帯に納まらなくてはシェアの回復は難しい。加えて、運用面での消費電力や設置面積の改善も必須で、これらが改善されなければ、自由競争の世界で生き残ることは難しいといわざるを得ない。
 

<アーキテクチャー>

 ベクタープロセッサーの特徴はRISCやスーパースカラー出現以前に多段式のパイプラインをSIMDに適用し、パイプラインのデータ待ちアイドリングを避けるため大量のレジスターファイルを確保した点にある。演算処理はレジスター・ベースの命令のみで、レジスターへのデータのロードストアとは分離処理し、1クロック1データ処理(演算)で高速化を図ったのである。その後、ベクターCPUは複数のパイプライン(演算器を含む)を持つようになり、SIMDの並列構造として現在に到っている。
 一方、スカラー系は、論理的には、RISCにより1クロック1演算になった時点でベクターCPUと同じ基盤に立ったことになり、性能の差異はベクターかスカラーかと言うことでなく、単に保持する演算器の数によることになる。スカラー系はスーパースカラーによりコア内に複数演算器接続が可能になり、さらにマルチコアでスパースカラーの並列構造化が可能になった。
 たまたま、スカラー系は代表的CPUであったPentiumやK8までのOpteronが、歴史的経緯からSSEを持っていたため、2FPU構成をとれなかったのであるが、CoreマイクロアーキテクチャやK10アーキテクチャーになり、SSEを改良し、2FPU構成と同等にしたため、理論的にはマルチコアの方がベクターCPUより演算性能が高くなるという逆転現象が起きているのである。
 ここで問題となるのがデータの供給の問題である。マルチコアの高速CPUとなるとデータ供給が追いつかなくなる可能性があるのである。しかしOpteronのHypertransportのようなクロスバー型制御で最大32bitで2.6GHZ転送(V2.0)と言うようなPoint-to-Pointで高バンド幅のバス制御が使用されると、コア数が増加しても、ビット幅を増やすなどの対応が可能であるので、データ供給も全体としてどうにか供給可能なレベルになっていると思えるのである。
 従って、近い将来に8コア、16コアの出現が予想されている昨今、スカラー・プロセッサーの性能は順調に伸びてゆくものと期待できるのである。

<べクタープロセッサーは必要か?>

 以上、性能的にも、価格的にも、アーキテクチャー的にも、合理的に考えればベクター型を次世代日の丸スパコンの一方の柱にしなければならない積極的理由は見当たらない。スカラー部だけでなぜ不十分なのだろうか? 目標はLINPACKで10PFLOPSなどの実現である。今回理研が提出してきた概要設計は、この目標に対し必要十分なスリムな設計になってるのか? 各部はその存在不可欠な理由を10ペタ実現との関連で説明できるのか? 

 今回の評価報告書では、一切、この件に関する評価(審査)はなされていない。 ぜひとも、数値データに裏付けられた明確なお答えを伺いたいものである。

 

※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。

このブログについて

ブロガープロフィール

アーカイブ

2008年8月
     12
3456789
10111213141516
17181920212223
24252627282930
31      

カテゴリ

ブログネットワーク

アルファブロガー

末吉隆彦 ロケーションウェアの「空」と「実」場所・空間を増幅!?「ロケーション・アンプ」
末吉隆彦 ロケーションウェアの「空」と「実」
佐々木俊尚 ジャーナリストの視点毎日新聞社内で何が起きているのか(上)
佐々木俊尚 ジャーナリストの視点
平野敦士カールのアライアンスInsightケータイの次に来るブルーオーシャン 雑感
平野敦士カールのアライアンスInsight
外資系エグゼクティブの日々サステイナブルな社会
外資系エグゼクティブの日々
クロサカタツヤの情報通信インサイトインターネットのリュミエール
クロサカタツヤの情報通信インサイト
福徳俊弘のリッチ&リーチメディア論マスとは違う、ネット広告クリエイティブのモードと作法
福徳俊弘のリッチ&リーチメディア論
江島健太郎 / Kenn's ClairvoyanceiPhoneという奇跡
江島健太郎 / Kenn's Clairvoyance
渡辺聡・情報化社会の航海図IBM Global CEO Study 2008からみえる世界
渡辺聡・情報化社会の航海図
鈴木健の天命反転生活日記パラレルワールドとしての電脳コイル
鈴木健の天命反転生活日記

読者ブロガー

個人・少人数制作アニメーション現代記 - 真狩祐志DVD続々 「CATMAN」「ウサビッチ」「つみきのいえ」他
個人・少人数制作アニメーション現代記 - 真狩祐志
M.Gのセキュリティブログ@CNET「夏期休暇」その前に…
M.Gのセキュリティブログ@CNET

企画特集

サーバ仮想化のメリットを最大化する!サーバ仮想化のメリットを最大化する!
多機能・高価値なNetAppストレージの秘密とは
DELLが掲げる「新・仮想化アセスメントサービス」DELLが掲げる「新・仮想化アセスメントサービス」
〜企業システムの仮想化環境の構築を支援〜

新着コメント

私は高いと思います。もちろん現行の個々の機種は設定価格に十分見合う性能を......
Macは、やはり高いのか?
投稿者:PowerYOGA
ポイントの一つとしては、手放す時のリセールバリューでしょうね。Windows PC......
Macは、やはり高いのか?
投稿者:朝之丞
wackeyさん, 同じ切り口で整理…これがポイントだと思っています。 どう整理......
オープンソース総合情報検索Wikiサイトはいかが?
投稿者:今駒哲子
PCと比べて値段が高いとは思いません.例え高いとしても問題ではないと思いま......
Macは、やはり高いのか?
投稿者:ubsp1977+cnet
親ネット派と反ネット派の対立という視点は、わいわい問題を分かりやすく見て......
毎日新聞社内で何が起きているのか(上)
投稿者:keijizyou

ブログネットワークとは?

CNET Japan ブログネットワークは、元はCNET Japanの一読者であった読者ブロガーと、編集部の依頼により執筆されているアルファブロガーたちが、ブログを通じてオンタイムに批評や意見を発信する場である「オピニオンプレイス」、また、オピニオンを交換するブロガーたちが集うソサエティです。

広い視野と鋭い目を持ったブロガーたちが、今日のIT業界や製品に対するビジョンや見解について日々熱く語っています。

あなたもブログを書いてみませんか?

CNET Japanやその他サイトが提供するITニュースやコンテンツへの意見や分析、 ビジネスやテクノロジーに対するビジョンや見解について語っていただける方を 募集しています。ご応募はこちらから

ブログの投稿・管理

ブログの投稿はこちらから(※ブロガー専用)

ブログアワード2007開催決定!

今年最も活躍したブロガーを表彰します。詳細はこちらから

αマークって?

これは、CNET Japan 編集部の依頼に基づいて執筆されているCNET Japan アルファブロガーによるブログの印です。

Good!って?

CNET Japan ブログネットワーク内で拍手の代わりに使用する機能です。ブログを読んで、感激した・役に立ったなど、うれしいと思ったときにクリックしてください。多くGood!を獲得した記事は、より多くの人に読まれるように表示されます。

レビュー

[レビュー]高い信頼性を普通に使う地球に優しい電源ユニット--Antec EarthWattsシリーズ EA-650
“自作ユーザーは、電源ユニットに何を求めるのか?”出力なのか、安定性なのか、それとも機能性なのか?難し
今週の新製品総チェック:7色カラーのPC、ピンクのビデオカメラとカラフルモデルが続々と
秋の新製品ラッシュ前ということでか、新製品の数は控えめ。携帯電話夏モデルの店頭発売日の決定と、iPhone
[レビュー]テレビを持ち歩ける最強ツール--ソニー、Blu-rayレコーダー「BDZ-A70」
加速度的に製品の認知度を普及させているBlu-rayレコーダー。その高画質、長時間録画という製品特性に「お
[レビュー]ネットワーク対応の高機能デジタルフォトフレーム--ソニー「Canvas Online CP1」
最近、各社からデジタル写真を気軽に見るための「デジタルフォトフレーム」が発売され、一つの製品ジャンル
15時間の行列で手に入れたiPhone 3Gファーストインプレッション--ソフトバンクモバイル「iPhone 3G」
北京を見逃すな!--2008年夏、今買うべき「薄型テレビ」