お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

英語で流行ったセマンティック・サービスが日本(語)でも流行るとは限らない

2009/01/13 00:30
  • このエントリーをはてなブックマークに追加

プロフィール

野村 直之

『人工知能が変える仕事の未来』https://goo.gl/9N7cJE ・書籍帯の紹介文より: 「…ここ数年、毎日のように、人工知能についてのインパクトのあるニュースがいくつも流れる中、人工知能の産業応用について一貫して考えつづけた結論をまとめたものです。その背景には、筆者が1985年以来、職業的にAI、自然言語処理の研究開発に従事し、1993年から1994年にマサチューセッツ工科大学人工知能研究所の客員研究員(Visiting Scientist)として、ノーム・チョムスキー(自然科学としての言語学を創始)、マービン・ミンスキー(人工知能の父)、ジョージ・A・ミラー(認知心理学の開祖、ワードネット[WordNet]プロジェクトを創始)他の薫陶を受けながら脳内の言語知識のモデルを研究した経験、その成果を踏まえて、類似検索の体感精度を改善したり、高精度な文章要約システムを開発したりした経験があります。  …AIの産業応用や、AIが浸透した社会における人間の役割、教育のあり方などに興味、関心をもっておられる方に、必ずや、お役立ていただくことができると思います。  (「はじめに」より)」
ブログ管理

最近のエントリー

 初回の最後にセマンティック・ウェイブというタイトルにした理由を書きました。このタイトルは決してオリジナルではなく、そのものずばりの名前のサイトがあります:
http://www.semanticwave.com
また、Semantic Wave 2008というレポートが、project10xというところから出されています。若干の個人情報と引き換えにExecutive Summaryを下記サイトの下方からダウンロードすることができます。
http://project10x.com/

 この中で、「現在始まろうとしているWeb3.0は、意味表現のWebであり、散在する知識を結びつけるものだ」、としています。つながった知識をうまく働かせ、もっと自分の作業に関連ある有用かつ楽しい体験としてインターネットを使いこなせる仕組みがSemanticなWebである、と主張しています。
 
Semantic Technologyがいずれ5兆円市場となる、という報告は実は3年前に出ています:
http://findarticles.com/p/articles/mi_m0EIN/is_2006_Jan_11/ai_n26723778

決して煽るわけではありませんが、かといって筆者の独りよがりでもない点お含みいただきたく、紹介させていただきました。

日本語での紹介

 日本向けに、「Webを変える10の破壊的テクノロジー」の最終章に「セマンティック技術」をあげたのは、JETROの渡辺弘美さんです:
http://www.csaj.jp/government/other/2007/070626-1_jetro-ny.pdf

 また、週刊アスキーに長年「仮想報道」を連載されている歌田明弘さんが、ドイツをはじめ欧州でセマンティック技術の研究開発が盛んなことを書いておられます。

なぜかグーグルが興味を示さないセマンティック検索
国をあげてグーグルに対抗しようとしているヨーロッパ

 これらについて、記事が出た当時のコメントを付けた拙はてな日記も適宜ご参照ください。

単語の意味推定は日本語の検索でも十分有効?

 上記の引用でも紹介されている単語の意味推定を目玉としたPowersetのセマンティック検索ですが、買収したマイクロソフトが検証を重ねているという報道があります:
MS、Live SearchにPowersetの技術を取り入れ

 日本語対応も進めているようです。ここで「単語の意味の推定は日本語の情報検索でも十分有効か?」という問いをたててみました。

 Web以前の引用だったので正確なリンクが無くて恐縮ですが、ある言語研究機関が、米国と日本の農村の家庭の主婦を対象に、朝起きてから夜寝るまでに用いた単語のすべてを記録し、異なり数を比較した調査がありました。

 結果は、英語は数千単語程度だったのに対し、日本語側は、1万前後の単語数となったとのこと。これを、日本人の方が知性が高いなどと誤読するのは早計も甚だしいわけです。
 ほぼ同等のコミュニケーションの内容、質、量であったのに、異なり単語数に2倍以上の開きがあったことを素直に解釈すれば、1単語の意味の数に2倍以上の開きがあったから、ということができます。ここではその理由、原因まで深く追求することはしません。1つだけ想像すると、英語国民の方が新しい事物に出会ったとき、なるべく平易にネーミングする傾向があるのに対し、日本語では難しげに新規の名前を付けたりその概念専用にカタカナ語をあてがったりする傾向があるからかもしれません。

 ともあれ、この結果を受け入れるなら、日本語処理の場合、単語への分かち書きさえすませておけば、英語に比べて、検索キーワードが複数の意味をもつ頻度はかなり低いことになります。とすると、日本語のキーワード検索の体感精度向上のためには、何か別のことを優先的に(前倒しで)実施した方が有効となる可能性があります。別の施策を優先し、単語の意味の推定は後回しにした方が良いかもしれないのです。

 かように、セマンティックの時代には、テクノロジーやその活用について、言語依存性、文化依存性が深まっていくことが考えられます。海の向こうで流行っていることが必ず「次に来る」などと早計せず、自分の目で、本当に役立つ技術を峻別し、ライバルに先駆けて採用していくような思考法が求められるのではないでしょうか。

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー