SC07 の話題は「スパコンTOP500」のほか、「HPCC(HPCチャレンジ・ベンチマーク)賞」と「ゴードン・ベル賞」がある。
ゴードン・ベル賞はともかくとして、HPCC賞は、文科省の次世代スパコンの政策評価の数値目標である「2011年6月にTOP500の第1位と、HPCC賞の4項目で全て第1位になること」の対象であるので、Top500だけでなくHPCCについても注意を向ける必要があると思う。
<ゴードン・ベル賞>
今年のゴードン・ベル賞はLLNL(リバモア研究所)のグループによる”Micron-Scale Atomistic Simulation of Kelvin-Helmholtz Instability”(KH不安定性のミクロン・スケールの原子シミュレーション)が受賞した。
http://sc07.supercomputing.org/html/SC07AwardWinners.html
KH不安定性とは、海洋での強風時の海面とか、雲の境界面などといった、異なる流体の境界面で発生する不安定現象であり、今回受賞したのはその現象を20億個の原子を使ってシミュレーションを行ったものである。LLNLの360TflopsのBGLを使用し、54.4Tflops(実行性能比約15%)を達成したということである。
ゴードン・ベル賞のファイナりストには上記KH-instabilityのほか3編が残っていた。
http://sc07.supercomputing.org/?pg=gordonbell.html
その中の一つは、LLNLのBGLやワトソン研究所のBGW上での”WRF”(Weather Research and Forecast、気象の研究と予報)の稼動で、理論性能の7%程度の実行性能とProcessor数による線形なスケーラビリティを確認したというもの。WRFは限定された地域での天気予報に用いられているソフトウエアで米国ではPower5+とともに使用されている主流。
ただし、BGLのCPU-PPC440は2FPU構成で4flops/Clockであるが、コンパイラのバグで、2flops/clockでの作動となってしまい、2flops/clockでの性能によると記されている。また、注には、ORNLのCray-XT3では”WRF"は11%程度の実行性能比で作動しているとも記されている。
まあ、とにかく、受賞したKH-instabilityといい、WRFといい、米国では、流体・気象関係のスカラ化は急速に進んでおり、某国の一部で訳のわからない高額ベクタ機論を展開している人達は、ソフト面でも、急速に孤立化してしまう可能性は否定できない。
他のファイナりストは、理研のMD-Grapeによる281Tflops達成と、地球シミュレータを使った第一原理計算で14.6Tfopsを達成したというものである。
HPC業界では関心が汎用機での1Pflops達成に向いていて、BGL拡張版が478Tflopsを達成した今回のSC07においては、専用機で281Tflopsというのは、計算内容を無視すると、インパクトが少なかったような気がする。また、地球シミュレータによる第一原理計算は、ベクタ型スパコンが殆どない現状では、基本的に関心度が低いのはやむを得なかったのではないかと思う。
<HPCC賞>
HPCCは米国防省のDARPAの委嘱により、テネシー大が中心になってスパコンの持続性能を判断するために開発されたベンチマーク群である。それらは実際のスパコン・アプリケーションで頻繁に使用され、パーフォーマンスに大きな影響を与え、パーフォーマンス解析に必要と考えられるマクロ・サブルーティンである。その中の4項目にHPCC賞が設定され、毎年賞が与えられる。4項目は行列式計算のLinpack相当の「G-HPL」、メモリ・アクセスの「G-Randum-Access」、高速フーリエ変換の「G-FFT」、データ移動の「G-STREAM」である。
Linpackは数値計算の基本であり、万遍なくメモリ・エリアを順番にアクセスするタイプの計算で、理論性能に近い性能が期待できる計算である。一方、G-FFTはメモリを飛び飛びに行ったり来たりアクセスするタイプの計算で、性能が発揮しにくい計算である。スパコンの全般的な性能は概ねLinpackとFFTの値を見ることで判断できると思う。
http://www.hpcchallenge.org/
2007年のHPCC賞の性能を以下に示す。
| HPCC Awrad 2007 | |||
| G-HPL | Achieved | System | Affiliation |
| 1 | 259 Tflop/s | IBM BG/L | LLNL |
| 2 | 94 Tflop/s | Cray XT3 | SNL |
| 3 | 67 Tflop/s | IBM BG/L | IBM T.J. Watson |
| (SX-8) | 8 Tflop/s | NEC SX-8 576CPU | Shuttgart |
| G-Random Access | Achieved | System | Affiliation |
| 1 | 35.5 GUPS | IBM BG/L | LLNL |
| 2 | 33.6 GUPS | Cray XT3 | SNL |
| 3 | 17.3 GUPS | IBM BG/L | IBM T.J. Watson |
| (SX-8) | 0.019 GUPS | NEC SX-8 576CPU | Shuttgart |
| G-FFT | Achieved | System | Affiliation |
| 1 | 2870 Gflop/s | Cray XT3 | SNL |
| 2 | 2311 Gflop/s | IBM BG/L | LLNL |
| 3 | 1122 Gflop/s | Cray XT3 Dual | ORNL |
| (SX-8) | 161 Gflop/s | NEC SX-8 576CPU | Shuttgart |
| EP-STREAM-Triad (system) | Achieved | System | Affiliation |
| 1 | 160 TB/s | IBM BG/L | LLNL |
| 2 | 77 TB/s | Cray XT3 | SNL |
| 3 | 55 TB/s | IBM Power 5 | LLNL |
| (SX-8) | 24 TB/s | NEC SX-8 576CPU | Shuttgart |
HPCC賞は申請ベースであり、多くの最新のシステムはTOP500のLINPACKに集中しているため、今までのところ、HPCCに最新機種のデータが登録されることは少なく、前年の機種のデータが遅れて登録されるような傾向である。
今年も、第1位のLLNLの増強版BGLや、第2位のBGP、第3位のSGI-Xeon等々のデータはなかった。また、昨年、4項目とも第1位であったLLNLのBGLのグループからはアップデートは無かったようで、昨年のデータのままであるが、SNL(サンディア研究所)のXT3(Red Storm)からのアップデートがあり、FFTの第1位とG-HPL、G-Random-Access、G-Streamの3項目の第2位を獲得し、4項目とも今年登録分の第1位を獲得した。
残念ながら「地球シミュレータ」はデータの登録をしておらず、SX系でデータを送っている中で1番大きなシステムはドイツのShuttgartのSX-8(576CPU)なので、参考のため、そのデータを表に入れておいた。
SX-8のFFTの値を、HPLの値をベースに比例増加させ、地球シミュレータ(Linpack36Tflops)の値を予測すると、およそ725Gflopsであり、CPU交換で100Tflopsとしても2000Gflops程度で、SNLのXT3の2870Gflops、LLNLのBGLの2311Gflopsには到達できない。
FFTは流体シミュレーションを含め多くのアプリケーションで総演算量を削減する解法として使用されており、FFTの性能が芳しくないのに、流体シミュレーションは速い、などということは無い。各アプリケーションにより、全体の中でのFFTの比重が異なるため、単純な比較は意味が無く、同一のアプリケーケーションで比較を行わなくては意味がない。
地球シミュレータは最低でもHPCCの4項目のデータは登録しておく必要があると思っている。
なお、筆者の誤解、思い違い、転記ミス、計算違い、あるいは不適切な表現等がございましたら、ぜひ、コメント欄にてご指摘いただけますと幸いです。
※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。
能澤 徹 on 2007/11/24
あまり詳しくないようですので、いくつかツッコミとコメントを。
(1) 比較に出されているSX-8のシステムですがbaseでスコアが計測されています。optで計測しているRed Stormと比較するのはどうかと思います。(ほぼ同じRedStormの構成でもbaseでのG-FFTは1515GFLOPSとoptの60%程度の低い性能値となります)
(2) SXのシステムのスコア自体が異常に低いです(SX-7 32CPUのoptレギュレーションでで80GFLOPSくらい出てますのでbaseとはいえ、10倍以上の構成でスコアが2倍というのはちょっと…)SubmitされたスコアはHWの導入時にテストを兼ねてとったベンチマーク結果などで、baseで書き換えられるライブラリの最適化すらまともに行っていないなどと考えるべきなのではないでしょうか?
もちろん、SX-8のネットワークなどが手抜きで性能が出ないだけなのかもしれませんが…。
HPCCは歴史が浅いだけあって、お試しでとったベンチマーク結果ときちんとチューニングをして計測したベンチマーク結果が入り混じっているようです。掲載されているベンチマークスコアがその計算機の実力と考えるのは、ちょっと短絡的だと思います。
swy on 2007/11/23
ブログにコメントするにはCNET_IDにログインしてください。
この記事に対するTrackBackのURL:
ネットワーク型産業構造への衣替え?
iPhonista Nightの事後報告
SoftBankは誰に好評なのか?
スパム
アフィリエイトの仕組みを知らない?技術者のITリテラシー
OSC2008Tokyo/Fallで勉強会大集合開催
月5000円を得るための代償
iPhone2.2では、絵文字に対応?
すでに土砂降りのIT業界みんなのお題では、ブロガー同士で質問を出し合いそれに対する回答や意見を集めています。今日はどんな話題が盛り上がっているでしょう?
CNET Japan ブログネットワークは、元はCNET Japanの一読者であった読者ブロガーと、編集部の依頼により執筆されているアルファブロガーたちが、ブログを通じてオンタイムに批評や意見を発信する場である「オピニオンプレイス」、また、オピニオンを交換するブロガーたちが集うソサエティです。
広い視野と鋭い目を持ったブロガーたちが、今日のIT業界や製品に対するビジョンや見解について日々熱く語っています。
CNET Japanやその他サイトが提供するITニュースやコンテンツへの意見や分析、 ビジネスやテクノロジーに対するビジョンや見解について語っていただける方を 募集しています。ご応募はこちらから
ブログの投稿はこちらから(※ブロガー専用)
今年最も活躍したブロガーを表彰します。詳細はこちらから
これは、CNET Japan 編集部の依頼に基づいて執筆されているCNET Japan アルファブロガーによるブログの印です。
CNET Japan ブログネットワーク内で拍手の代わりに使用する機能です。ブログを読んで、感激した・役に立ったなど、うれしいと思ったときにクリックしてください。多くGood!を獲得した記事は、より多くの人に読まれるように表示されます。
[レビュー]2011年画質を備えた高画質、多機能Blu-ray--ソニー「BDZ-X95」
今週の新製品総チェック:よりモバイルPCとして進化した「Let's note」が登場
今週の新製品総チェック:フルサイズCMOS搭載のキヤノン「EOS 5D Mark II」が登場
今週の新製品総チェック:第4世代iPod nano登場、ソニー「α」、松下「LUMIX」に新機種も
To: コメント#1
まず、読者の皆様にご理解いただきたいことは、ブログ本文の最初に書いてありますように、HPCCは国家プロジェクトである次世代スパコンの政策評価の数値目標の一つです。つまり大変重要な指標であるということです。
さて、その重要な指標であるHPCCへの国産機のデータ登録は極めて貧弱です。地球シミュレータはデータを登録していません。登録されている国産機のデータの中で機種が比較的新しく、規模も大きく、信頼できるのはShuttgartのSX-8だけです。SX-7のデータもありますが、規模が小さすぎることと、データの一部に不可解な値があったりするので、採用しませんでした。
ShuttgartのSX-8のデータがOptimizedでないという議論は、国際社会を知らない内弁慶な素人さんの泣き言としか聞こえません。世界中のHPC関係者が注目し、文科省の政策評価の数値目標にもなっている重要なHPCCのデータを、今の今までほっぽり出して、Optimizationの努力を怠っていたということが問題なのではないでしょうか。世界はこのデータで比較しますから、SXはOptimizationする必要がないのだと判断しているだけです。内向きな弁解に終始するより、性能が上がるなら、堂々と世界に向けて、すぐにでもOptimizedのデータを登録することをお勧めします。
(1)に関して
Baseではなく、Optimizedで比較すべきでしょう。Baseでは、Baseのアルゴリズムによる有利不利がありすぎるからです。
(2)に関して
HPLのデータを見ると、ShuttgartのSX-8は正常と思えます。一方、上で若干述べたように東北大のSX-7のED-DGEMMの値には疑問がありますから、SX-7を正しいと考えるのか、ShuttgartのSX-8の方を正しいと考えるのかは、公平に判断する必要があるでしょう。
お試しから,もう2年はたっているのではないでしょうかね。HPCCのResultは世界中が見ており、どれがお試しで、どれが本気なのかわかりませんね。お試しデータを使ってほしくないなら、早く、本気データでオーバーライドするしか方法は無いですよ。
まあ、こんな詮索をしているより、性能が上がるのなら、しっかりした、Optimizedのデータを測定し、登録することをお勧めしますね。
なお、誤解を避けるため付言しますと、ブログ本文は、なるべく一般的な内容で、と考えており、技術的な隘路に入り込むことがないよう、かなり単純化して述べておりますことを申し添えておきます。