お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

5W1Hメタデータ自動抽出Mextractrアンケート 於慶應三田3/16セマンティックWebコンファレンス→3/24追記

2009/03/24 10:25
  • このエントリーをはてなブックマークに追加

プロフィール

野村 直之

『人工知能が変える仕事の未来』https://goo.gl/9N7cJE ・書籍帯の紹介文より: 「…ここ数年、毎日のように、人工知能についてのインパクトのあるニュースがいくつも流れる中、人工知能の産業応用について一貫して考えつづけた結論をまとめたものです。その背景には、筆者が1985年以来、職業的にAI、自然言語処理の研究開発に従事し、1993年から1994年にマサチューセッツ工科大学人工知能研究所の客員研究員(Visiting Scientist)として、ノーム・チョムスキー(自然科学としての言語学を創始)、マービン・ミンスキー(人工知能の父)、ジョージ・A・ミラー(認知心理学の開祖、ワードネット[WordNet]プロジェクトを創始)他の薫陶を受けながら脳内の言語知識のモデルを研究した経験、その成果を踏まえて、類似検索の体感精度を改善したり、高精度な文章要約システムを開発したりした経験があります。  …AIの産業応用や、AIが浸透した社会における人間の役割、教育のあり方などに興味、関心をもっておられる方に、必ずや、お役立ていただくことができると思います。  (「はじめに」より)」
ブログ管理

最近のエントリー

 以前の記事でご案内した、慶應大学SFC研究所主催のセマンティックWebコンファレンスに主催側に名を連ねさせていただき、参加いたしました。大変熱心な聴衆にご参集いただきました。あえて、その気迫に負けないほどすばらしい基調講演以下が続いた、と書かせていただきます。

http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html
↑ こちらの 予稿集ページ(まとめてDLするのに便利)で、講演内容についてご確認ください。

  パネルの2番手で、ポジション・ペーパーの発表よろしく、「なぜ向こう5年間でエンタープライズに必然的にセマンティック技術やインフラ、サービスが入っていくか?」について10分少々語らせていただきました。

 16:25−17:55 パネルディスカッション「エンタープライズ3.0に向けて」

モデレータ: 萩野 達也 (慶應義塾大学 環境情報学部)
パネリスト:

岡本 真 (ヤフー株式会社)
野村 直之 (メタデータ株式会社) [PDF]

佐藤 宏之 (日本電信電話株式会社) [PDF] 
津田 宏 (株式会社富士通研究所) [PDF]

渡邉 圭輔 (三菱電機株式会社)  

長野伸一 (株式会社東芝) [PDF]

 

 「グランズウェル」という、【顧客側の大変化】に対応して企業側が何らかのソーシャルの仕組みを入れる必要があり、それに呼応して、業務プロセス、特にCRM、サポートを中心とするナレッジマネジメントの仕組みが変化する。その際に、外部のネット(インターネット)の環境とまったく異なる次のような条件に阻まれる:

・人口が4,5桁少ない

・キーワード検索やPageRankが無力

・本業をサボってボランティアにうつつを抜かしてとの心理的圧力 などなど

これらを解決するのに、人々の代理としてのエージェントを駆動するエンジンとしてのセマンティック技術が必要であり、また、 5W1Hを中心とした文書メタデータと、オントロジー等を駆使したセマンティック検索が極めて重要になってくる。

以上、足掛け17年の大手製造業の業務経験や、サービス業のナレッジマネジメントでコンサルティングした経験に基づき、自分の存在、自分が設立した会社の存在を賭けて信じているビジョンを語ることができました。

 この後の討論も、聴衆からの鋭い質問で非常に盛り上がりました(→3/24※末尾に討論の骨子を追記しました)。パネリストもお互いに勉強になり、親交を深めることができました。主宰、司会の慶應義塾大学SFC研究所、特に、萩野先生に心より感謝申し上げます。

  メタデータ 株式会社としては、 5W1Hメタデータ自動抽出エンジン、そしてその具体的な製品であるMextractrについて、下記のアンケートを実施させていただきました。参加者の半数近い方に熱心にご記入いただき、大きな手ごたえを感じました。以下、統計処理した数字をグラフにしてご紹介いたします。

  ●1.Mextractrをご存じでしたか?

  セマンティックWebに強い関心をもった聴衆の方を母集団としているので、もっとYesが多くてもおかしくない、と考え、「もっと広く知っていただかなくては」と思いを新たにしました。

 

●2.メタデータ自動抽出機能はあなたにとってどのくらい重要でしょうか(5者択一)
a.不可欠  b.有用な選択肢  c.有用になる可能性あり  d.興味深い  e.不要

  8割方の回答者がその場で、5W1Hメタデータ自動抽出のデモをご覧になったばかりだったことも影響したとは思いますが、「不可欠」という回答が予想以上に多かったです。「興味深い」にチェックされた方で、その後、コンタクトを希望された人もおられるため、b., c., d.の違いはあまり大きなものではない、という解釈もあり得ます。

 

●3.2の質問で想定された応用用途はどんなものですか?
組み合わせるIT: グループウェア・カレンダー SNS  CMS  社内レガシー統合
        DB・文書管理  マッシュアップ開発ツール  新広告スペース

 

  これについては、Mextractrで想定したカテゴリ、ご紹介したマッシュアップアプリの中から、回答者の業務に近いものを選んでいただいた感じがします。

 

その用途    : 5W1H数値インデキシング(5W1Hサーチ支援)
          匿名化  日本語のWebAPI化(5W1H連携マッシュアップ支援)

  5W1Hの日本語の記述を、漢字表記を含めて数値として理解し、正規化、マッシュアップができること。それが、様々なエンタープライズ・アプリにおいて共通する、賢い検索機能(単なる文字列一致でない検索)にとって決定的に重要である、と皆様お考えのようです。

 

●4.3の用途で取り出したいor扱いたい情報の種類はどんなものですか?
イベント・スケジュール情報  個人情報  文書メタデータ
営業・サポート情報  社内知識共有向け情報  BtoCコンテンツ

   これについては、イベント・スケジュールや個人情報が多いと予想したのがはずれる結果になりました。代わって、文書メタデータが圧倒的に多く、それと少し重なりそうな、社内知識共有向け情報にも票が集まっています。後者は、外部のネット上の有用記事を想定された方もおられそうです。だとすると、膨大な外部記事には、Mextractrによって有用なメタデータを付与し、オントロジー等の助けも借りながらピンポイントの絞り込みを行って推薦して欲しい、という切実な要求が反映しているのかもしれmかせん。

 

●5.3の応用用途で重要になりそうな5W1Hはどれでしょうか。
いつ  どこで  誰が  何を  いくらで  その他※特定の形式で取り出したい要素や特定の分野があればお書きください。
 例:製品型番、閉店時刻、食材名、静電容量、etc.

 

 「その他」を、「5W1H全部」という意味でチェックされた方もおられましたが、その場合、全てに1票ずつ入れられたものとして集計しました。「いつ」「どこ」で過半数いくか、という予想と異なり、「誰」と「何」が過半数となりました。「誰」への支持は、KnowWHOやプロジェクトでの人材マッチングの重要性が相変わらず強いことを示唆してくれています。

 「何」については、特定業務でカギとなる、さまざまな名称、概念を想定されている可能性を感じました。予想よりも、カスタマイズへの要求が強い、と解釈すべきかもしれません。

 

●6.メタデータ活用で実現するソリューションで、興味のあるものはどれですか?
  ( ) 情報共有とプライバシー保護の両立  ( ) 情報連携、マッシュアップ
  ( ) レガシーデータの再利用  ( ) 個人情報保護
  ( ) 5W1H条件で検索するためのメタデータ・インデキシング

 やはり、情報連携、マッシュアップの可能性への支持が圧倒的でした。次いで、文字列に頼らない、数値による5W1H 検索への期待が高いのを改めて確認。「情報共有とプライバシー保護の両立」については、KPI, ROIが今一歩はっきりしないのがネックとなり、伸びきれなかったのかもしれません。

 

●7.Mextractrの活用を検討する場合に、気になるポイントはどこでしょうか。


 

  最後の設問では、精度、価格、カスタマイズ性を気にされる、ということで、今後の参考になります。具体的な事例を通して、これらについて、さらに目安、ガイドラインを詳細化してまいりたいと思います。オントロジーを知識リポジトリとして併用し、自動抽出したメタデータから有用なものに絞って他リソースと連携させるソリューションへのニーズが高いことも掴めましたので、以前の計画よりも前倒しで取り組んでまいりたいと思います。

 個別の案件について、魅力的で、コスト削減にもなる提案を第三者(代理店さんなど)が容易にできるように、さらに実践を重ねてまいります。

 今後ともどうぞよろしくお願いいたします。

--

※パネル討論の骨子(会場からのご質問の8割と野村による回答)

Q. Web検索で「問題解決」しようとして、間違った答を含むページに騙されないようにしたり、予測違いを修正したいときどうしたら良い?

A. 3点お答えします。まず、検索結果で十分なのかどうか、古くて使えない(outdated、obsolete)情報、データでないかどうか、5W1Hの時間軸WHENに沿って版管理のリンクを追うような仕組みでセマンティックWebや検索エンジンを進化させる必要があるでしょう。このニーズは切実なので確実に次の進化の1つに入ってくると思います(我々もがんばります)。

 次に、「これでは十分ではないこと」になるべく早くユーザが気づくようにしむける必要があります(検索屋さんの商売には支障ある機能かもしれませんが勇気をもって実行すべし)。そのために大事なのは「空欄」。表の中に空欄があれば、ヒトは気になります。空欄の存在を明らかにするには、回答の論理構造を「メタデータの枠」の形で表現するのがシンプルな解決法。つまり、データより先にメタデータを定義し、ユーザに見せることで「空欄」、情報が足りないことを一目瞭然にできるのです。メタデータの、隠れた重要な役割と言って良いでしょう。

 3番目に、別の知識源(広くオントロジーと言ってもいいでしょう)から得た計算式や表によるシミュレーションで、検索結果の予測を検証することが考えられます。セマンティックWebのTrust=信頼性確保の一方法です。

 

 Q. 動画のメタデータって大事ですが、自動で付けられませんか?

 A.  画像解析(色立体)でシーンの切れ目、あと、マルチメディア辞書でダイレクトにメタデータ抽出はできなくはない。15年前位から、MIT Media Lab.などで研究されていたが、実用化にはまだ工夫が必要でしょうか。

補足:個人情報保護のメタデータについて、テキスト由来のものと画像のメタデータと共通化すると実用化が進みそう。情報大航海プロジェクトでこの取り組みをやっています。

 

Q. Web 3.0アプリはどんなもの?

A.  ソーシャルに頼ってきた「2.0」と違って、「一人でも使える」、というところにポイントがあるかも。Salesforce.comや、優れたグループウェアは一人で使っても役立つはず(個人事業の営業履歴の管理、ToDoの整理/生成などで)。もちろん、チーム力を発揮できない分、セマンティック技術等を駆使した十全なマッシュアップ、コンテンツのサポートを巧みに取り入れたものがうまくいくでしょう。

 

 

 

 

 

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー