logo

NEC、商品などの評判をブログや掲示板から抽出する技術を開発

新澤公介(編集部)2009年04月16日 19時50分
  • このエントリーをはてなブックマークに追加

 NECは4月14日、ブログや掲示板などの文章から、商品やブランドに関する評判を抽出する技術「文特性分布計算方式」を開発したと発表した。ユーザーの主観や感情を表す「意見文」や、特定の話題に関連した「トピック関連文」を的確に抽出できるという。

 従来の方式では、1つの文に含まれている「良い」「悪い」「高い」「安い」などの単語と、その対象となる製品やサービスなどを特定することで評判を抽出していた。しかし、この方式では、製品やサービス名が省略されている短い文や、単語とその対象が離れて書かれている文では、評判を抽出できないことがあった。このため、文ごとを対象とするのではなく、複数の文章をまとめて扱える技術が必要だったという。

 文特性分布計算方式では、話題は複数の文章にわたって書かれる傾向がある、という点に着目した。3つの文を1セットとした文の集合の中に、いくつの意見文やトピック関連文が含まれているかを解析し、この文章が意見文、トピック関連文であるかどうかを評価していく。この方法で文章内すべてを評価し、最終的にこの文章全体が意見文、トピック関連文である確率を算出する。この確率が一定の値に達したもののみを意見文、トピック関連文として抽出する仕組みだ。

 文特性分布計算方式では、本来抽出すべき文のうち実際に抽出できた文の割合が従来方式よりも高かったという。意見文では従来方式の52%から73%に、トピック関連文においては18%から63%に向上したとのことだ。

 インターネット上でユーザーが発信するさまざまな情報は、企業が商品やサービスを改善する上で有用な情報だと注目されている。NECでは、評価対象のどういった点がどのように良いか、悪いかを抽出する「評判抽出技術」をすでに開発している。これを文特性分布計算方式と組み合わせることにより、ブログ、電子掲示板などのCGM情報や、アンケートデータ、コールセンターにおける問い合わせ記録などから、より多くの意見や顧客の要望が把握できるとしている。

-PR-企画特集