【追加:こちらもご参照ください。Grape-DRの性能:2007/12/20】
昨年11月のPaper発表から既に半年が過ぎたので、夏休みに突入する前の忘れないうちに、GRAPE-DRのその後に関してコメントを加えておきたい。
HPC業界も6月のISC08でのTop500の発表で、Roadrunnerの1PFlops、Blue Gene/L、Blue Gene/Pの0.5Pflops、TACC-Sun-Opteron Quadの0.3Pflops、オークリッジ研のCray-XT4-Opteron Quadの0.2PflopsとPflops級のMajorなスパコンの陣取も決まって来たようであるが、反面、世界のHPCの最前線からの日本の脱落は議論の余地が無いほど明白になってしまったように思う。勿論、原因は日本のスパコン戦略の杜撰さにあることは論を待たない。
今後の世界的な話題は、CPUで、PowerXcell、PPC450、Opteron Quadといった先発組の後継CPUに、Nehalem(Xeon Quad/Octa)やPower7が何処まで食い込むことが出来るかといったことや、ダークホースとしてのGPGPUやメニーコアの行方などが噂されるのではあるが、如何せん、”1Peta越え”が終わってしまうと、拍子が抜けてしまい、もう既に夏休みモードのようなのは、致し方ないのかも知れない。
さて、本稿のニューズは、GRAPE-DRのボードが、既に、販売され始めたというお知らせである。これは”K&F Computing Research社”のHPに掲載されているもので、先週偶然見つけたのであるが、GRAPE-DRのボードが2種類発売されていたのである。
東大の公式の報道機関向け発表にも、研究成果発表にも含まれておらず、東大からの何らかの正式発表が行われたのかどうか不明であるが、この会社のHPの7月のUpdate分で表示が行われ、7月17日にこの会社から報道発表があったようである。
一般的に税金プロジェクトで完了報告も無く、成果物の権利関係が曖昧なまま、販売が可能なのかどうか疑問ではあるが、とにかく発売され始めたらしい。
ボードの種類は、GRAPE-DRを1セット搭載のものと、4セット搭載の2種類で、それぞれ598,500円と1,648,500円で、後者は3Q/2008の発売となっている。”ソフトウェア、データ、資料”は“近日対応予定”となっているが、1ボードの行列積の実測データが掲載されている。。
実測性能 行列積計算 DGEMM (Gflops)
ホスト計算機 : ASUS P5E (X38 チップセット) + Intel Core2Quad Q6600
動作周波数 : 380MHz (倍精度ピーク性能 194 Gflops)
size(i = j = k) 1 ボード 2 ボード
2048 67 34.5% 117 30.2%
4096 93 47.9% 151 38.9%
5120 103 53.1 166 42.8%
6144 ― 177 45.6%
7168 ― 183 47.2%
2006年11月のチップ完成発表時のボードとの仕様上の違いはPCとのインターフェースがPCI-XからPCI-E 8wayないしは16wayに変わった点とクロックが500MHzから400MHzに変わった点であろう。
注目点は、2006年のチップ完成発表時、そして2007年のSC07でのPaperにおいては、GRAPE-DRの基本クロックは500MHzと発表されており、“正常作動を確認”と発表していたにも関わらず、400MHzに大きく後退し、実測用ボードでは380MHzにまで後退している事で、これは、全くの推測では有るが、タイミングがらみのなんらかの問題が発生しているのではないかと考えられ、最悪の場合は、Over-writeによるデータロスなどの厄介な問題の可能性も排除できない。
販売されるボードの仕様としては、400MHzが採用されており、ピーク性能はGARPE-DRチップを1セット載せたボードは単精度409.6Gflops、倍精度で204.8Gflopsであり、4セット載せたボードは単精度1634.8Gflops、倍精度819.2Gflopsとなっている。
比較でいうならピーク性能は、倍精度で、2006年公表の384Gflopsの53%、2007年公表の256Gflopsの80%ということになってしまっているのである。
このボードで最終システムを組み立てると、プロジェクト開始時点のシステムサイズでは、倍精度のピーク性能で約0.8Pflopsに過ぎず、当初の性能目標である2Pflopsの達成は全く論外で、1Pflopsですら達成できないことになる。
注意すべきは、これはピーク性能(理論性能)での話であり、ピーク性能からはかなりの性能低下が想定される実行性能においては、Roadrunnerのような実行性能で1Pflopsなどは全く論外といわねばならない。
公表された行列積(DGEMM)の実行性能103Gflopsは、ピーク性能194Gflopsの53%程度であり、あまり芳しい性能ではない。このDGEMMは、HPCCのEP-DGEMMのデータが示すように、適切に設計されたCPUでは、ほとんどが80%-90%程度の性能を示しているからである。
そして、2ボードでの性能は1ボードでの性能からさらに5%-10%程度低下しており、これはPCのディスパッチング能力と通信遅延によるものと考えられるので、1PCで4セット搭載ボードを制御する場合はさらに大きな性能低下が予測される。
これらはローカリティの高い行列積での性能であるが、広域度の高くなる大規模Linpackにおいては、さらにネットワーク遅延を考えねばならず、これらのデータが欠落している現状ではデータ不足で最終システムの性能予測は難しいが、上限としては1ボードや2ボードの実測データから400Tflopsを超えることは無いといってよい。
予測の精度を上げるには、複数チップ制御による性能低下と、ネットワーク遅延をどの程度見込むかということで、ガッツなフィーリングでいうなら、それぞれ15%で合計30%低下と考えると、最終的なシステムはクロック380GHzとして、200-300Tflops程度で、悪くすると100Tflops台もありうるのではないかと思っている。
(GRAPE-DR開発関係者で異議があったらコメントに書き込んでください。適切なデータがあれば修正はやぶさかでは有りません)
参考のため、2004年のプロジェクト開始以来、発表/公表されたピーク性能の変遷を下表にまとめてみた。
<GRAPE-DRチップの公表ピーク性能の変遷>
チップ チップ内 クロック システム
ピーク性能 演算器数 ピーク性能
(倍精度) (倍精度)
2004年プロジェクト開始 1Tflops 1024 500MHz 2Pflops
2006年チップ完成時 384Gflops 512 500MHz 1.5Pflops?
2007年SC07発表時 256Gflops 512 500MHz 1Pflops?
2008年7月発売ボード仕様 204.8Gflops 512 400Mhz 0.8Pflops
2008年7月実測ボード 194Gflops 512 380MHz 0.76Pflops
Grape-DRは2004年に“2008年に2ペタフロップスの計算速度を実現するとともに、40Gbpsネットワークを高度利用した科学技術研究データ処理システムを構築する。 現在実施されている国内,海外の超高速計算システムプロジェクトでは、GRAPE-DRプロジェクトが最も早期にペタフロップスを越す予定である。”“1チップに1024プロセッサ(注:演算器のこと)を集積”し、“ピーク(理論)性能は1チップ1Tflops”(東京大学 [広報・情報公開]記者発表一覧)として、東大と国立天文台が中心となり、科研費総額15億円の予算で始まったプロジェクトである。
目標の2Pflopsが単精度なのか倍精度なのかは明確ではないが、科学技術計算の世界では倍精度浮動小数点演算が常識であり、それらの常識を備えた大学の発表であるから、この目標は倍精度と考えるのが常識であろう。
そして、2006年11月のチップ完成の大報道発表会では、“1チップ512プロセッサー(演算器)”となっており、演算器数がいつの間にか2004年の半分になっており、クロックは500MHzで、チップのピーク性能は単精度512Gflops、倍精度384Gflopsと発表されていた。
このチップのピーク性能に基づくと、システムとしてのピーク性能は単精度で2Pflops、倍精度で1.5Pflopsということになる。チップ内演算器数を半減したためピーク性能は半減してしまい、目標の倍精度2Pflopsは達成不能となり、この時点で極めて巧妙に、当初目標の倍精度2Pflopsが単精度2Pflops、倍精度1Pflopsに摩り替わってしまったように思っている。
そしてこの後、いつの間にか、GRAPE-DRの目標ピーク性能は単精度2Pflops、倍精度1Pflopsであるような雰囲気になってしまっているのである。
その後、SC07での発表においては、クロック500Mhz、チップのピーク性能は単精度512Gflops、倍精度256Gflopsと記述され、倍精度の性能が384から256に入れ替えられてしまっている。
そして、今回のボード販売では、仕様上は400Mhz、単精度
409.6Gflops、倍精度204.8Gflopsとなっているが、前述のとおり、実測用ボードはさらに低下して380MHzを使用しているようである。
という事で、今回はとりあえず、GRAPE-DRのボードが400MHzで売り出されているという事実をお伝えするに留め、今年度内に出されるであろう完了報告に注目しつつ、終了としたい。
※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。
ネットワーク型産業構造への衣替え?
iPhonista Nightの事後報告
iPhone2.2では、絵文字に対応?
すでに土砂降りのIT業界
長時間マウスを使うから(マウス選び)
CMSでのSEO対策効果を実験している
平成 14 年の、医療体制に関する意見募集を偶然発見
割賦販売制度の副産物
XPへのダウングレード権がさらに延長みんなのお題では、ブロガー同士で質問を出し合いそれに対する回答や意見を集めています。今日はどんな話題が盛り上がっているでしょう?
CNET Japan ブログネットワークは、元はCNET Japanの一読者であった読者ブロガーと、編集部の依頼により執筆されているアルファブロガーたちが、ブログを通じてオンタイムに批評や意見を発信する場である「オピニオンプレイス」、また、オピニオンを交換するブロガーたちが集うソサエティです。
広い視野と鋭い目を持ったブロガーたちが、今日のIT業界や製品に対するビジョンや見解について日々熱く語っています。
CNET Japanやその他サイトが提供するITニュースやコンテンツへの意見や分析、 ビジネスやテクノロジーに対するビジョンや見解について語っていただける方を 募集しています。ご応募はこちらから
ブログの投稿はこちらから(※ブロガー専用)
今年最も活躍したブロガーを表彰します。詳細はこちらから
これは、CNET Japan 編集部の依頼に基づいて執筆されているCNET Japan アルファブロガーによるブログの印です。
CNET Japan ブログネットワーク内で拍手の代わりに使用する機能です。ブログを読んで、感激した・役に立ったなど、うれしいと思ったときにクリックしてください。多くGood!を獲得した記事は、より多くの人に読まれるように表示されます。
[レビュー]2011年画質を備えた高画質、多機能Blu-ray--ソニー「BDZ-X95」
今週の新製品総チェック:よりモバイルPCとして進化した「Let's note」が登場
今週の新製品総チェック:フルサイズCMOS搭載のキヤノン「EOS 5D Mark II」が登場
今週の新製品総チェック:第4世代iPod nano登場、ソニー「α」、松下「LUMIX」に新機種も