お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

WWWを生んだCERNで進むグリッドコンピューティング

2004/04/01 09:00
  • このエントリーをはてなブックマークに追加

プロフィール

umeda

シリコンバレーで経営コンサルティングを行なう傍ら、ベンチャーキャピタリストとしても活躍する梅田望夫さんが、IT業界の先を読むのに役立つ英文コンテンツを毎日紹介していきます。これを読めば、英語と業界動向を読む力が同時に身に付くはず(このブログの更新は2004年12月30日で終了しました)。
ブログ管理

最近のエントリー

CERN(欧州合同素粒子原子核研究機構)のグリッドコンピューティングの最新状況について、Wired誌「The God Particle and the Grid」が詳しい記事を書いているので、今日はそれをご紹介しよう。2003年9月30日のCNET Japan「CERN、グリッド・コンピューティング・ネットワーク計画の第1段階を始動」を予備知識としていただければいい。

高エネルギー物理学の研究から生まれたWWW

CERNといえば、思い出すのはWWW生みの親・Tim Berners-Leeである。記事の終わり頃に、CERNについて

「where Tim Berners-Lee invented the Web itself more than a decade ago」

と書かれているように、CERNはWWW発祥の地でもある。

このWired誌の記事を読む前に、CERNの予備知識として、「CERN(セルン)研究所の案内」も読むといい。東大の鳥居寛之氏のホームページ上の解説である。解説の最後に、

「ところで、ここ CERN は皆さんが今こうして楽しんでいる WWW (World Wide Web) の発祥の地である。大量のデータを扱う高エネルギー物理学の研究ではそれに対応したコンピュータソフトウェアの開発も盛んで、もともと WWW はデータの検索システムとして1984年に開発されたものが、その後急速に発展していったものだとか」

とある。このくだりは、本欄3月18日「コンピュータサイエンスの発展を説くビル・ゲイツ」の中でご紹介した、コンピュータサイエンスの最先端研究が他分野においてこそ行なわれているという話

「However, an increasing number of people are doing computer science outside of the computer science department, because they see all the other places "where the action is". We saw and heard about great computer science work in physics, biology, chemistry, public health, b-schools, economics, you name it.」

とまさに呼応するところである。CERNの高エネルギー物理学の研究が、この文章のキモ「where the action is」のactionであり、そこで最先端研究が行なわれることに、コンピュータ・サイエンスの大学関係者は危機感を持つという話だったわけである。

大量のデータを扱う研究

さて、Wired誌記事でも、「大量のデータを扱う高エネルギー物理学」の実際、つまりどのくらいそのデータが大量なのかについて、まず語られる。

「For all the high-level physics, smashing protons together is actually the easy part. The hard part is crunching data. To find the Higgs, which might flash across Atlas' layered detectors for a microsecond, researchers will have to process a staggering amount of information. Atlas and its three sister detectors will spew a thousand times more raw data in a year than in all the world's phone calls. Every eight-hour run of the LHC will produce around 10 terabytes. At full power, the LHC could produce 10 petabytes of useful data each year.」

LHC(大型ハドロン衝突型加速器)は、1日8時間で10テラバイト、フルパワーだと、年に10ペタバイトの情報を吐き出す。LHC計画については、「日本アトラスグループ:広報Home Page」で詳細な解説がある。

「高さ22m・全長46m・重量7000トンのアトラス実験装置は、日本を含む33ヵ国から約1300人の研究者が参加するアトラス国際共同実験グループによって建設され、ヒッグス粒子や超対称性粒子など基本素粒子の発見をめざす。約500億円の総工費で1997-2006年に建設し、2007年のLHC加速器の完成とともに物理実験を開始する。各国の研究者は、この装置の部分の建設を担当し、それぞれの国で設計・製作した装置を持ちよってCERNの地下実験室で組み立てる。現在建設が日本を含む各国で進められている。」

記事の

「Discovering the Higgs might seem an esoteric goal. But the search will have a powerful real-world spinoff: to process all that data, scientists are building a worldwide meta-network of PCs, organized into large clusters and linked by ultra high-speed connections into a global, virtual computing service. It's called the LHC Computing Grid, and it could mark the evolution of the Internet from a pervasive communications network into a powerful, global computation network.」

という部分で描かれるように、このLHCが吐き出す厖大なデータの解析というニーズが、研究予算の手当ても含め、グリッド・コンピューティング・プロジェクト「LHC Computing Grid」を真剣なものとしているわけである。

スパコンの能力と予算の限界からグリッドに着目

ところでこのグリッドプロジェクトの責任者は、Les Robertson。

「In 1974, Robertson came to CERN's computing department. Today he's the head of the LHC grid. When the Large Hadron Collider was approved in 1994, Robertson - a pragmatist at a lab full of woolly-headed theorists - realized that no supercomputer in the world could handle the massive amount of data the new collider would produce. And he knew he'd never get the funding for a supercomputing center anyway.」

この人は1974年からCERNのコンピュータ部門に居る人で、1994年にLHCプロジェクトが承認されたとき、現実主義者・実務家の彼は、LHCが吐き出すデータを処理できるスーパーコンピュータなど存在しないこと、そしてスーパーコンピュータセンターを作る予算など絶対に承認されないはずであることを、よく知っていた。そして、

「Then, in the summer of 2000, a little-known computer scientist named Carl Kesselman came to Geneva from California to give a seminar. Kesselman is one of the fathers of grid computing; Robertson had heard of the concept, but now he was seeing the light. A grid was the perfect solution for the enormous amounts of processing capacity the LHC would require - and it was dynamic, flexible, and infinitely expandable.」

グリッドコンピューティングの父の1人であるCarl Kesselmanのセミナーで、グリッドこそがその解であることに気づき、その方向で研究を進めた。

オープンソースのグリッド用ミドルウェア

そのときに、カギを握るのは、Globus Toolkitというミドルウェアだった。Carl KesselmanとIan Fosterによって率いられたオープンソース・プロジェクトで作られたものである。

「The key is middleware called the Globus Toolkit, an open source project led by Kesselman (who now runs the Information Sciences Institute at USC) - and Ian Foster of the Argonne National Lab in Illinois.」

こんなところにもオープンソースが出てくるのですね。ちなみに、Globus Toolkitについては、こちらのサイトをご参照ください。

「Globus enables a grid to interpret a user request and then autonomously find the appropriate computing resources. Then it breaks the job into the right kinds of smaller tasks, allocates the spare computing power, and gets to work solving the problem. Robertson and his team at CERN have also integrated software developed for various grid projects around the world, but the Globus Toolkit still provides core protocols.」

Globusによって、グリッドがユーザリクエストを解釈して、自動的に適切なコンピューティングリソースを見つけることができるようになる。そしてタスクを分割してそれぞれにコンピューティングパワーを割り当てる。RobertsonらCERNチームは、世界中のさまざまなグリッドプロジェクトで開発されたソフトをインテグレートしたが、Globus Toolkisがその中核となっているという。「Robertson and his team at CERN have also integrated software developed for various grid projects around the world」という文章に、現代の研究用ソフトウェア開発の雰囲気がよく現れている。

「LHC Computing Grid」プロジェクトにおいては、通信速度や通信インフラの問題ではなく、やはり、コンピューティングリソースのコストが真の課題だという。詳しくはこの記事の2ページ目をどうぞ。

「"The original grid concepts implicitly assumed that there would be plenty of resources," says Newman. Plan it, figure out how it will work, and grid computing should just happen. But "in the real world, it doesn't work like that."」

つまり、もともとのグリッドのコンセプトは、リソースが世界中に溢れている、という暗黙の前提に立っていたが、現実世界ではそうはいかない。

「That's the crucial distinction between grids and the Web. Information may want to be free, but doing work with it costs money."When we make this leap to utility processing, it will theoretically give you access to computing power without knowing the details, just as the Web gives you access to information without knowing where it's stored," says Robertson. "But on the Web, there's so much information available, because people want to make it available without charging for it, and the cost of making it available is quite low. But is there so much high-performance computing capacity available that people want to give it away?"」

そして、ここが、リソースにカネのかかる研究用大規模グリッドと、情報が無償で溢れていることを前提に成立したWWWとの違いである、という点が面白い。

グリッドが使えるのは科学分野のみ

また最後に、グリッドの主要アプリケーションは今のところサイエンス領域に限られ、商用化に向けては、まだまだこれから相当の時間がかかる技術だ、という認識が示されている。

「But builders like Robertson and Newman cast a skeptical eye on some of the wilder claims about the magic of grids.」

「It's nerve-racking - their grid still has a way of crashing at inopportune times. It remains a primitive work in progress. Just like the Internet before Tim Berners-Lee first wrote www.」

グリッドの世界は、まだTim Berners-LeeがWWWを発明する前夜。

「But then, the Web wasn't originally intended for civilians, either. People have a way of repurposing powerful technologies in surprising ways.」

単なる技術的な課題だけでなく、その技術を別のアプリケーションに転用する知恵や工夫という意味においても、やるべきことがたくさん残っている領域なのである。

とても充実した面白い記事であった。グリッドコンピューティングや、コンピュータサイエンスと他の学問の接点に興味のある方は、ぜひ原文をお読みいただければと思います。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー

個人情報保護方針
利用規約
訂正
広告について
運営会社