統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発

  • このエントリーをはてなブックマークに追加

 日本語意味解析エンジンを開発するSematicsは6月15日、統計的確率論を用いた言語解析エンジン「Perceptron Engine」を開発したと発表した。統計的確率論を用いた日本語解析エンジンは「世界初」(同社)という。

 Perceptron Engineは「形態素解析」、「構文解析」、「文脈解析」、「意味解析」の4つの解析処理によって構成される。従来の言語解析技術は、辞書によるデータのマッチングにより処理されていたため、データ容量が膨大で、その処理に多大な時間を要した。一方、Perceptron Enginesは大規模な辞書を用いないため、少ないメモリやディスク容量でも高速処理が可能で、500文を1秒で解析できるという。

 形態素解析とは、文章を形態素と呼ばれる、意味を持つ語句の最小単位まで分割して解析するもの。各語句を品詞単位、動詞や形容詞といった活用語句の場合はその活用形ごとに解析する。また、構文解析とは、文章内の各文節間の係り受けの関係を分析して、ある文節がどの文節を修飾しているかを解析するものだ。

 今回発表されたPerceptron Engineでは、「こ・そ・あ・ど言葉」に代表される文章中の代名詞が、具体的に何を指しているかを特定したり、日本語の特徴的表現でもある主語の省略された文章についてその主語を補完したりする「文脈解析」技術を採用。また、文章中の単語がそれぞれ持っている意味の概念を抽出したり、各文節間の文法的関係と意味的関係を解析したりする「意味解析」により、より精度の高い日本語解析技術を実現している。

 記者発表の席で、Sematics代表取締役会長の吹谷和雄氏は「文章の解析の際、文法はほとんど無視してあくまで数学的な関数処理を使い、単語と係り受けの関係を中心に解析するので、従来のマッチングデータに頼った技術よりも高い精度で解析できる。そういう意味では、素人の書いた文法的にミスの多い文章でも高い解析効果を発揮できると思う」と説明した。

 同社は既に3月に形態素解析、および構文解析からなる日本語解析エンジンを搭載した要約ソフトをパッケージ化し、「ズバリ要約」としてソースネクストより発売(定価1980円)している。今回のPerceptron Engineは、さらに高精度な技術への要望に応えて研究・開発を進めた結果だが、Sematicsは今後この技術を他社にライセンス供与というかたちで提供していく方針だ。このほか、世界的に需要が高い英語版を年内にも開発し、米国法人も設立する予定という。2008年までに120億円の売り上げを目指す。

 また同社は、ISOで標準化されたマルチメディアに対するメタデータの表記手法「MPEG-7」に準拠した意味構造データ「Sematag」を自動的に付与する技術の開発にも着手。実現すれば、このタグを中間言語とした多言語変換も可能になるという。

ズバリ要約 「ズバリ要約」ではこのように文章が要約される
  • このエントリーをはてなブックマークに追加