お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

検索できないコンテンツは存在していない?

2004/07/02 09:05
  • このエントリーをはてなブックマークに追加

プロフィール

umeda

シリコンバレーで経営コンサルティングを行なう傍ら、ベンチャーキャピタリストとしても活躍する梅田望夫さんが、IT業界の先を読むのに役立つ英文コンテンツを毎日紹介していきます。これを読めば、英語と業界動向を読む力が同時に身に付くはず(このブログの更新は2004年12月30日で終了しました)。
ブログ管理

最近のエントリー

今日は英文に行く前にまず、是非読んでみていただきたい日本語の文章をご紹介する。

6月30日に「圏外からのひとこと」で書かれた「グーグルランクと課題図書」という長い文章だ。冒頭で、筆者のessa氏は、

「これは、Googleの現代IT産業における意義を50代、60代の人に伝えると同様な読者を想定して、逆にインターネットの本質的な問題点を明確に述べてみようという意図で書いた文章です」

とある。ここでいう「同様な読者」とは、

「「インターネットの存在や意義は知っているが自分では使っていない。Googleなんて聞いたこともないし、むろん使ったこともない。でも知識欲は旺盛で、新しい事象を理解しその意味を考えることができる程度には、十分に知的である」そんな50代、60代の読者」

である。ぜひご一読ください。

サーチエンジンに対する共通する不安

さて、実は今日ご紹介しようと思っていたことは、この「グーグルランクと課題図書」のテーマと、ほんの少しだけ関係がある。

「サーチエンジンによって見つけられないものは存在していないのと同じ」という危機感が、テキスト・コンテンツに関わる人々の間に醸成されつつある。今日ご紹介するいくつかの記事に共通するのはそんな感覚だ。

まず、New York Times「Old Search Engine, the Library, Tries to Fit Into a Google World」の冒頭では、ライブラリアンの危機感がこんなふうに紹介される。

「For the last few years, librarians have increasingly seen people use online search sites not to supplement research libraries but to replace them. Yet only recently have librarians stopped lamenting the trend and started working to close the gap between traditional scholarly research and the incomplete, often random results of a Google search.」

ここ数年、Googleをはじめとするオンラインサーチが、図書館を補完するものではなくて置き換えるものになってきた。それを嘆いてばかりいても仕方ないので、従来の学術研究と、不完全でランダムな結果が出てくるGoogleサーチのギャップを埋めるべく動き始めた、とある。

「The biggest problem is that search engines like Google skim only the thinnest layers of information that has been digitized. Most have no access to the so-called deep Web, where information is contained in isolated databases like online library catalogs.」

Googleのようなサーチエンジンがすくい取れるのは、「thinnest layers of information that has been digitized」(デジタル化された情報という、情報という分厚い層全体の薄い表層)だけで、いわゆる「deep Web」(オンライン・ライブラリ・カタログのような孤立したデータベースに格納された情報)にはアクセスできない。こうした現状を打開するために、「deep Web」を、深海から表層に何とか浮かび上がらせるべく、いくつものプロジェクトが動き出しているというのがこの記事の骨子だ。

Googleで検索できない情報

また、1995年以前に出版された本、雑誌、新聞、歴史的地図、公文書、手紙、日記、人口統計、系図などは、デジタル化されていないし、将来もデジタル化されないであろうと専門家は予測していて、

「"We'll see the current generation we accuse of doing research in their pajamas develop highly sophisticated searching strategies to find high quality information on the Web," Dr. Smith said. "It's this transition period we're in, when not all high-quality information is available on the Web — that's what we lament."」

この記事は、こんな言葉を引用して終っている。若い世代は、ウェブ上の質の高い情報を見つけるためのサーチ戦略をどんどん洗練させているが、現在は、質の高い情報がウェブ上ですべて利用可能になっているわけではない移行時期であり、そのことを我々は嘆いているのだ、と。

科学者もGoogleやYahooで情報を探す

次に、ハワイ大学のPÉTER JACSÓ教授は、「CrossRef Search Pilot」で、Googleの新しいプロジェクトを紹介しているのだが、冒頭で彼は、世界中の科学者の多くが専門データベースではなく、まずGoogleやYahooで情報を探すというサーベイ結果に驚いている。

「According to his survey, in which librarians and scientists were asked to name the top scientific and medical search resources that they use or are aware of, "scientists named Google, Yahoo! and PubMed" as the top three resources. That's quite a surprise, knowing that scientists of the developed world, especially in the hard sciences, are very well-served by gigantic full-text searchable, interlinked digital journal archives of scholarly publications.」

Googleの新しい試み

New York Timesの記事では「若い世代の変化」について危機感がより強調されていたが、ここでは世代を超えた傾向を危機感としてとらえている。そして、その危機感をベースに始まったパイロット・プロジェクト「CrossRef Search Pilot」が紹介されている。このプロジェクトに参加している出版社は9社。

「The nine publishers who came to Google with gifts in hand include the American Physical Society (APS), Annual Reviews, Inc. (AR), Association for Computing Machinery (ACM), Blackwell Publishing, the Institute of Physics (IoP), the International Union of Crystallography (IUCr), Nature Publishing Group, Oxford University Press (OUP) and John Wiley & Sons (Wiley). 」

である。ここからサーチしてみれば、いろいろと実験することができると思う。とりあえずは2004年末までは続くことが決まっているパイロット・プロジェクトだそうである。むろんこのサーチで、すべての論文の中身全部にアクセスできるわけではなく、アブストラクトとリファレンス等までである。しかし、「そこまではサーチエンジンで見つけてもらわない限り、存在していないのと同じになってしまうのではないか」という危機感が、出版社側にも醸成されてきたことを示しているのではないかと思う。このハワイ大学JACSÓ教授の文章は、ものすごく長くて、情報豊富。この領域に興味のある方はぜひ原文をどうぞ。

企業内で埋もれる知識

さて、話題は少し変わって最後は、企業内情報システムについての話。根底に流れるものが同じなのかなと思ったのが、ComputerWorld誌の「Text mining tools take on unstructured data」という記事だ。

「"We are drowning in information but are starving for knowledge," says Mani Shabrang, technical leader in research and development at Dow Chemical Co.'s business intelligence (BI) center in Midland, Mich. "Information is only useful when it can be located and synthesized into knowledge."」

「我々はinformation(情報)には溺れているが、Knowledge(知識)には餓えている」とは、ダウ・ケミカルのビジネス・インテリジェンス・センターのリーダーのコメント。

「Unstructured data, most of it in the form of text files, typically accounts for 85% of an organization's knowledge stores, but it's not always easy to find, access, analyze or use.」

「But a new generation of text mining tools allows companies to extract key elements from large unstructured data sets, discover relationships and summarize the information. Many organizations are deploying or considering such software to deal with their mountains of text, despite the need for specialized skills to make implementations work.」

「ほとんどはテキストファイルの構造化されていないデータが「organization's knowledge」の85%を占めるが、そのほとんどは見つからない、アクセスできない、分析できない、使えない」という現状に対して、現在のテキスト・マイニング・ツールがどこまで来ているか、という5ページにわたる長文記事である。この領域は古くからさまざまな試みがなされているが、いつまでたってもニッチ以上になれないという典型的な市場だ。しかし、「サーチエンジンによって見つけられないものは存在していないのと同じ」というコンセンサスが、インターネット世界を発端に当たり前になっていき、その周辺での技術開発が加速して進めば、それが企業情報システムにも大きな影響を与える、という流れが生れてくるのかもしれない。

最後におすすめの書籍

さて今日はこれでおしまい、「ではまた来週」なのだが、ぜひお薦めしたい本が一冊あるので、最後にご紹介しておく。本欄読者の大半が書店でこの本を見ても、きっと手に取ることがないであろうタイプの本だからだ。千住博「千住博の美術の授業 絵を描く悦び」(光文社新書)。

この本は、日本画家の千住博が画家の卵に向かって自らの創造の秘密を語っている本なのだが、なにがしか創造に携わる仕事をしている人、これからしたい人にとっては、絶対にお薦め。内容がとにかく深い。だから普遍的なインスピレーションと勇気を与えてくれる。それ以上詳しいことは書かない。ぜひ読んで下さい。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー

個人情報保護方針
利用規約
訂正
広告について
運営会社