前回、前々回、文科省の次世代スパコンの戦略目標や開発戦略は、地球シミュレータ(ES)の成功神話を背景としたベクタ機信仰のようなものに根ざしており、現実の技術状況や技術トレンドの精査検討を伴わない概念操作的戦略絞込みであったことを述べた。戦略策定時には”天の声”でベクタ機を戦略としていたが、予算要求・承認時には基本戦略のベクタ機とは関係ない特定処理部で性能目標10PFを達成する案を提出し、さらに予算承認後の具体的設計段階に到ると、「ベクタ、スカラ、両輪論」といった説明で、予算承認時の性能目標達成の主力であった特定処理部を削除した案になっているのである。こうした経緯から、戦略と現実の落差・矛盾やシステム設計の一貫性のなさなど、基本戦略が「メロメロ」としか思えないものであることを指摘した。
特定処理部の削除の問題は、性能目標達成の主力であった特定処理部を削除することにより、システムの性能目標バランスが大きく崩れてしまい、設計全体を大きく変更せざるを得ない状況であるにも関わらず、合理的な説明がなされておらず、さらにひどい事には、評価において、ただ単に「性能目標達成は可能」などと報告されていることなのである。こうした状況は、プロジェクト承認時の「システム目標達成の可能性」、「予算」、「スケジュール」等のプロジェクト・パラメターの信憑性に多大な疑問を惹起せしめ、プロジェクトのスコープマネジメント、リスク・マネジメント、変更マネジメント等が極めていい加減といわざるを得ず、税金1154億円といわれている予算の見積や執行に多大な疑問があるということなのである。
こうした、「場当たり的思いつき」戦略に大きな影響を与えているのが「地球シミュレータ」の評価である。次世代スパコンの戦略策定においてESを成功と捕らえるのか失敗と捕らえるのかでは、戦略に大きな違いが生じる。筆者は前回、ESは「タクティカルな表面的目標に対しては成功」ではあったが、「要求性能に対しラック単体性能が低過ぎ」「無理なラック数増加を強いた」テクノロジ・ミスマッチの不経済システムで、「長期的テクノロジ戦略視点からの評価としては失敗である」との見解を示した。
次世代スパコンの性能目標である10PFは、100TF-1PFを達成するためのテクノロジの延長線上では達成が難しい性能で、10PFの目標を掲げ、10PF達成を目指すのであれば、10PF達成のためのテクノロジ基盤を洗い出し、速やかにその基盤を確立しなければ、余裕を持って10PFを達成することは難しい目標値である。旧式テクノロジのままで構成すると、ESと同様にテクノロジ・ミスマッチの不経済システムとならざるを得ず、その後すぐに現れるであろう新テクノロジにより陳腐化が進み、維持管理が重荷になってしまうシステムとならざるを得ないのである。
文科省の戦略には、こうした基本的テクノロジに関する検討、考察、戦略が欠落しており、堅固な戦略になっていない、ということである。
そもそも本論の始まりは、文科省-理研が、国税による次世代スパコン・プロジェクトの概念設計文書内の基本的データの公表を拒否していることに端を発したものである。性能バランスを大きく変えるようなシステム設計の変更を行いながら、変更後の各種見積もりデータの公表は拒否する、といった国民を馬鹿にしたような振る舞いにより惹起される様々な疑義や、それらに連動し惹起される国税の使途に関する疑義を回避するには、速やかな概念設計文書やデータの公開は必須であるので、引き続き、当該文書類の公開を求めてゆきたいと思っている。
<10PF達成の目安>
一口に10PFのシステムといっても、あまりに漠然としているので、具体的例として128ラックで構成する場合を考えてみよう。この場合は1ラック当たり、78.1TF以上必要ということで、2007年6月のTop500に対応させると、第6位のASC-Purple(75.67TF)が該当し、BG/Lグループを除くと、第2位のオークリッジ研究所のJaguar(101.7TF)、または第3位のサンディア研究所のRed Storm(101.3TF)が当てはまる性能である。 あるいは、256ラックまで拡大して構成するのなら、1ラック当たり39.1TF必要で、第14位の東工大のTSUBAME(48TF)、あるいは第20位の地球シミュレータ(35.86TF)などが該当し、詰まるところ、10PFを実現するということは、現在の世界の最先端のスパコン・システムを1ラックに詰め込むことと考えれられるのである。
つまり、ラック当たり35-80TFが実現できれば10PF機は可能であり、ラック当たり4-8TFでは1PF機ということになるのである。
逆に、これらが達成されないと、目標達成には、ESのように、ラック増による不経済システムにならざるを得ないということになるのである。
従って、水増し不経済システムを排除するため、システムで10PFというより、1ラック50TF機作成とか、1ラック100TF作成、としたほうが遥かにわかりやすいし、意味がある。
テクノロジによるシステム性能の目安は、大雑把に見積もって、1コア2FPU(FMA)で3GHZ駆動とし、1ボード4チップ、1ラック24ボード96CPUで、システム当たり256ラック(本当は128が望ましい)とすると、
・2コア 1ラック=2.30TF 0.59PF
・4コア 1ラック=4.60TF 1.18PF
・8コア 1ラック=9.20TF 2.36PF
・16コア 1ラック=18.4TF 4.72PF
・32コア 1ラック=36.8TF 9.44PF
といった当たりが目安と考えられるのである。この目安によれば、10PFを狙うには最低でも32コア、出来れば64コアが必要ということになる。この64コアというコア数は、MIT/TILERAのTile64と同じ数であり、IntelのPolaris(80コア・プロトタイプ)にも近いコア数であり、マルチコアというよりメニーコアと呼ばれている領域である。
マルチ度が4、8、メニー、と上がってゆくにつれ、コア-メモリバンク間結合方式とキャッシュを含むチップ内メモリ量の対策が必須となり、AMDのHyperTransport、IntelのCSI、及び、チップのスタッキング技術であるTSVなどはその代表例である。米国では、こうした長期的戦略視点からの項目は、2004年のHECTRFにコンパクトに記述され、対策がとられていたことを指摘しておこう。
<次世代スパコンの性能分布>
再度、2006年の専門調査会での質問・回答を通して判明した「次世代スパコン」の性能概要の数値を以下に示す。資料自体は2005年10月に作成されている。
目標性能(PF) 目標性能(PF) 消費電力(MW)
(45nm) (65nm) (65nm)
ベクタ 0.50 0.25 8.0
スカラ 1.00 0.50 6.5
特定処理 20.00 20.00 7.0
その他 18.0
合計 21.00 20.75 39.5
年間経費: 80.5億円 81.4億円
ベクタ:4,096CPU/512ノード
スカラ:32768CPU/1,024ノード
http://www8.cao.go.jp/cstp/project/super/haihu02/siryo3-3.pdf
<ベクタ部>
現在販売中のSX-8Rは2.2GHZ駆動で1チップ当たり35.2GFとされており、FMAありとして1CPU8FPU構成であろう。1ラック2ノード16CPUでラック当たり0.563TF、最大512ノード256ラック4096CPUで144TFという性能である。
チップ性能的には2FPUのOpteronやCore2のクワッド・コア2.2GHZと同等と考えられるが、最大の問題はラックへの集積性の低さで、16チップである。これに対しOpteronなどは96チップ(Cray TX4)とか192チップ(TACC-SUN Ranger)などで、SXの6-12倍の集積度を示しており、ラック性能で大きく差をつけているのである。従って、ラック性能から判断すると、SXはスカラ・マルチコアのかなり下の方に位置することになっているのである。
SX-8Rは90nmで製造されているので、65nmでデュアル・コアにして2GHZで駆動すると、チップ当たり64GFとなり、前述の回答書の65nmで256ラックで0.25PFが達成される。SXは、現在、100GF超のCPUを開発中と報道されているが、45nmを使用し、クワッド・コアにするとチップ性能が124GFとなり、回答書の45nmで0.5PFが達成されることになる。
しかし、特定処理部が削除された現在、ベクタ部が10PFを担うには、あまりに落差が大き過ぎ、達成は不可能といってよいであろう。
<スカラ部>
スカラ部はCPUとしてSPARC64が使用されると報道されており、SPARC64を想定して検討してみる。SPRC64-VIは、90nmで製造され、2FPUのデュアル・コアで、2.4GHZ駆動となっているので、チップ性能は19.2GFである。今年4月に1年遅れで発表されたM9000を参照すると、1ラック1ノードは32チップで0.614TFで、1,024ノード32,786CPUでは0.629PFとなり、回答書の65nmで0.5PFに該当する。しかし、1ノード1ラックとすると、0.5TFで1,024ラックは多過ぎであろう。ESの640ノード320ラックの2倍以上であり、2007年末予定のSun-TACCの0.5PF機Rangerの82ラックの12,5倍である。しかも値段は$30M(35億円)程度である。全く国際競争力のない、完璧な不経済システムであろう。
SPARC64のロードマップによれば、SPARC64-VIの後継はSPARC64?VIIで、2008年に65nmでクアッド・コア となっているが、VIが2006年から2007年に遅れたので、VIIも1年遅れの2009年になるかも知れないが、クワッド・コアにより性能的には2倍の1.2PF程度は可能になる。クアッド・コアに45nmが必要かどうかは若干疑問ではあるが、とにかく回答書の45nmで1PFのレベルという記述とは合致する。45nmでIntel,やAMD並みにオクタ・コアを実現できれば、理論的には2倍の2PFまでは達成可能ということになるが、依然として1,024ラックの不経済システムであることには変わりはない。
M9000の1ラック32CPUは、前述の「システム性能の目安」で述べたCrya-TX4の96CPUやRangerの192CPUに比べ、ラック内のCPUの集積度が低く、結局ラック数を増すことで性能を稼ぐ設置面積eater方式になっている。side-by-sideまたはback-to-backで並べるにしろ、1,024ラック・システムはいただけない。ESと同じ完全なテクノロジ・ミスマッチで、建物(円形三階建で、各階とも地球シミュレータ施設より広い)から、インターコネックト機器、各種ケーブル類、設置作業、保守管理等々、CrayやSunの256、82/164ラックなどに比べ不経済もはなはだしい。
また、クワッド・コア以上になると、チップ内CPU間のバス・コンテンションが激しくなるため、AMD-Opteronは早々にHyperTransportに移行し、Intelも2008年からFSBをマルチドロップ・タイプからからPoint-to-PointタイプのCSにI移行することになっており、SPARC64?VIIがどの様に性能維持を図るのかは興味深い。
これらは高々1-2PFでの話であり、特定処理部が削除された現在、このスカラ部が10PFを担わねばならないとすると、この状態では45nmオクタ・コアでも5,120ラックとなり、不経済を通り越し設置不可能であろう。
勿論、FPUアクセラレータをSPARCに組み込む方法も考えられるが、今までのところ、この手の方式で成功した例は聞いたことがない。その意味ではLANLのRoadrunnner1.6PFの結果が興味深い。
<米国>
ご存知のように、米国では2008年に1PFレベルの機械がいくつも予定されており、ANL(アルゴンヌ研究所)のBG/P、ORNL(オークリッジ研究所)のOpteronによるCray-TX4(Jaguar)後継機、LANL(ロスアラモス研究所)のOpteron+Cell BE,、そして、これらのDoEの研究所に割って入る2007年末予定のTACC?SunによるOpteronの0.5PF機など、近間で、興味をそそるプランが多く、その後は2010-2011年のCrayとIBMがDARPAから別々に請け負っている3PF(4PF?)機がある。
AMDやIntelは2008-2009年に45nmのオクタ・コアを予定しており、2010年頃に32nmになるであろう。電流リーク処理もなされクロックも再び3GHZ超に再チャレンジするであろう。そして、チップのスタッキング技術の動向は不気味で、今後はプロダクション・ルール以上に意味が出てくるものと思える。この分野ではIBMとIntelが進んでいるといわれており、突然コア数が倍増とか、キャッシュが倍増などといったことが起こるかも知れない。
そして、なぜか、現在米国では10PFといったプランは、BG/Qを除いて、聞こえてこない。自由競争の社会にあっては、テクノロジ・レベルによる常識的な経済原理が働き、某国家社会主義国のように経済原理を無視した無茶はせず、テクノロジの機が熟するのを待っているのかも知れない。
<10PFはどうなるのか>
45nmでベクタ部0.5PF、スカラ部1PF-2PF程度を確保したに過ぎない。10PFはどうなるのか?
2007年6月-7月時点で性能分布、達成根拠などの数値データは示されていない。 概念設計評価委員会のように、ただ「可能である」といわれても、「どうやって?」とききたくなるのは自然であろうあろう。
文科省次世代スパコンの10ペタ実現の方法をご存知の方がおられましたら、ぜひご教示いただけますと幸いです。
なお、筆者の誤解、思い違い、転記ミス、計算違い、あるいは不適切な表現等がございましたら、ぜひ、コメント欄にてご指摘いただけますと幸いです。
※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
メンバー限定サービスをご利用いただく場合、このページの上部からログイン、またはCNET_ID登録(無料)をしてください。