お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

セマンティック技術アンケート結果から 〜3/16コンファレンス拾遺

2009/04/03 22:30
  • このエントリーをはてなブックマークに追加

プロフィール

野村 直之

『人工知能が変える仕事の未来』https://goo.gl/9N7cJE ・書籍帯の紹介文より: 「…ここ数年、毎日のように、人工知能についてのインパクトのあるニュースがいくつも流れる中、人工知能の産業応用について一貫して考えつづけた結論をまとめたものです。その背景には、筆者が1985年以来、職業的にAI、自然言語処理の研究開発に従事し、1993年から1994年にマサチューセッツ工科大学人工知能研究所の客員研究員(Visiting Scientist)として、ノーム・チョムスキー(自然科学としての言語学を創始)、マービン・ミンスキー(人工知能の父)、ジョージ・A・ミラー(認知心理学の開祖、ワードネット[WordNet]プロジェクトを創始)他の薫陶を受けながら脳内の言語知識のモデルを研究した経験、その成果を踏まえて、類似検索の体感精度を改善したり、高精度な文章要約システムを開発したりした経験があります。  …AIの産業応用や、AIが浸透した社会における人間の役割、教育のあり方などに興味、関心をもっておられる方に、必ずや、お役立ていただくことができると思います。  (「はじめに」より)」
ブログ管理

最近のエントリー

 もう1度、3/16のセマンティックWebコンファレンスのことを書きます。

個々の発表内容にご興味の向きには、開催概要の頁またはプレゼン資料のダウンロード頁から入手をお奨めいたします:

http://s-web.sfc.keio.ac.jp/conference2009/index.html

http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html

 会議全体としては、「オントロジー」と、「SNS」という2つのキーワードが目立っていたと思います。

オントロジーはメタデータとメタデータの関係を記述したものだし、SNSは、書き込み日時や個人名(ハンドル名)等のメタデータがコメント等にも自動記録される(だからWikiより楽ちんで混乱しない面がありますね)、という意味で、メタデータ活用は当たり前。その先に一歩進めようとした意欲的な研究成果が披露された、ということができます。

 メタデータを抽出し、他の情報リソースに関連付け、紐付ける。メタデータを軸足に、マッシュアップ、情報連携、気の利いた検索をする。例えば、全文検索でできないことをする。そもそも検索キーワードが無くて「いつ誰がどんなカテゴリーで投稿した記事」という手がかりしか無くても社内文書が見つかる。これらの応用もまだまだ緒についたばかり、といえるでしょう。

   前回はMextractrアンケートでしたが、今回は、次世代Web、セマンティック技術全般について、委員会のメンバーが、今回のコンファレンス登録者252名に対してアンケートを取り、集計された結果についてです。富士通研究所の津田宏さんが代表でとりまとめ、当日発表されました。その内、興味深い設問と回答について、許可を得て、下記に引用いたします。

 

 質問1: 所属されている組織ではどのようにWebを利用していますか? (複数選択可)

 

  さりげない設問ですが、興味深い結果を導けています。「正式な社内情報の連絡」は、社内ポータル設置とほぼ同義かと思われます。社内個人ページ、ブログ、SNSを合わせて71/252というのは、回答者が先進的なマインドをお持ちの方々であるわりには小さい数字と感じました。スケジュール・グルーウェアがWebベースに移行しているのが139/252は予想よりやや大きい数字です。Notesがこれに入っているかどうかで(バージョンによって違うかもしれませんね)解釈も多少代わってきますが、スケジュール・グルーウェアについては、レガシーな専用クライアントは退潮の一途を辿る、とみてよさそうな気がします。

 

1つとばして、質問3です。
質問3: 仕事でWeb技術を使う上での不満は? (最大3つ選択可)

 「量が多すぎて情報が探せない」が89/252というのは、やや予想より小さい数字です。はっきり言って、プライドが邪魔して、自分が情報洪水でおぼれかけていることを認めたくない、という心理が働いたかもしれない、と最初は勘ぐりました。しかし、実際には、目の前の情報の扱いに追われて、自分がいかに大量の有望情報を見逃しているか、あるいは、存在自体に気づいていないという事実を自覚していない、意外に「満足した」ユーザが多いのかもしれません。こんな人には、ライバル企業で同じ業務に従事している優秀な人が1人で購読している5000本のフィードや、ソーシャルブックマークをお見せすると効果的かもしれない、と妄想しました。

  キーワードがうまく設定できない、と認める方は、いまの検索エンジンの欠陥や拙さに腹を立てているかもしれません。あるいは大変謙虚に、検索エンジンは良いのに自分のスキルが未熟だ、と評価されているのかもしれません。いずれにしても、エンジン and/or UI (キーワード示唆機能等も含む) のテクノロジの進化が求められる結果、と思われます。

  「情報の信頼性」と、「新旧の情報の混在」は現状の非セマンティックなWebの大問題といえるでしょう。文書全体の発行年、という基本的なメタデータすら、強い制約条件(AND条件で必須)とされていないことから、検索エンジンのノイズは依然かなり多い状況と思われます。

 

質問4: 「セマンティック技術」として期待するものは? (最大3つ選択可)

「大量に作られるログ的な情報を次々と整理して溜めてくれる」
「わざわざ検索しなくても必要な情報を勝手に教えてくれる」

これら2つの選択肢は、ユーザが何もしなくても自動的に整理したり、関連情報を自動的にゲットしておいてくれる、という期待です。ソフトウェア・エージェントの機能、といっても良いでしょう。

「自然言語や文章から情報を検索できる」
「様々な言語の情報を探して日本語で結果をくれる」

これら2つは自然言語処理への期待。

「製品名などうろ覚えで入力しても適切に近そうなものを検索してくれる」
「専門的な内容でも易しい言葉で探すことができる」

これらは、オントロジーなどを活用した知識利用検索といえます。

「複数の情報源を一度で意味的に横断して検索してくれる」  

「状況(場所時間etc )にあわせた検索 」

この2つこそセマンティックサーチの典型、という感じです。意図を察したり文脈・状況を察して、秘書のように適切なものを見つけてくれる。少なくとも、ユーザ側が、データベースの配置など、機械の都合に合わせたりしなくて良いように情報アクセスできるようになって欲しい、ということで、実装面ではクラウドへの期待にもつながっているかもしれません。

 
「内容の信頼性によって区別して返してくれる」
「新しい情報が追加されると古い情報は自動で消してくれる」

これらは、セマンティックWebの"Trust"という最上位層への期待だったり、自動で文書の進化系統樹を辿って、古い無効な情報を素早くスキップできたい、という期待です。後者は、実はPageRankの構造的な問題点、すなわち、多くの「自分より新しい!」ページから参照されている【古い】ページのランクが上がりやすい、という問題のおかげで、最新の改版文書の方が目立たなくなる、というのを何とかしてくれ、という要望でもあります。アカデミックな価値、権威からすると、ある分野、アイディアのオリジナル、創始者が偉いわけなので、PageRankでもいいかもしれません。しかし、ビジネス現場の文書はこれでは困ります。鮮度が高く、outdatedな情報をそぎ落とした最新情報が、【事前に注目】され、待望されているみたいに、空きスロットすなわちメタデータを用意しておく、という、抜本的な対策が求められているのかもしれません。セマンティック技術のベンチャーで、それに取り組んでいるところがあるのと、エンタープライズWebコンテンツ管理のワークフローに、そのような考え方を2002年から取り入れたBrandSoft社の活動に改めて注目してみたい気がいたします。

「検索結果をリストだけでなく,表とか色々な形で見える化してくれる」
「文書だけでなく,人とかモノ,ノウハウ(動画)が検索できる」

瞬時に把握できる見える化、すなわち、人間が意味を素早く理解できるようにメディア変換して欲しい、という期待は、情報爆発とともに拡大していくでしょう。メディアが違っても「同じ意味のもの」なら同じように検索されて欲しい、という期待もうなずけます。それには、画像、動画、単語・文章の違いを超えて、メタデータを共通化する、というのがストレートな対策のように思えます。

 
質問5: 企業内でセマンティック技術の導入が難しい要因は何でしょう?

 

 この回答は、研究者、技術者にとっては耳の痛いものがあります。運用の問題であれば、ユーザ側が変化できない、というネックになりますが、「技術がまだ未熟」、そしてそれ以上に「効果が不明」(評価尺度さえ不明?)というのがシビアです。ただ面白そうだから、そこに意味表現を作れそうだからやってみただけ、という無責任な研究姿勢では、結局、実際に役立つものは作れない、というメッセージをユーザから突きつけられた、と思っておいて良いでしょう。

 KPIを定義して進化の方向性を明らかにし、ROI (Return of Investment)を数値化する。この作業を怠ることなく、製品・サービスの開発、改良に取り組んでまいりたいと思います。

 

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー