富士通研究所は11月24日、文章中の人名や組織名、地名などの固有名詞を高精度に抽出する技術を開発したと発表した。これにより、新聞記事から約97%の精度で人名を正しく抽出する。従来の抽出手法と比較して抽出ミスを60%近く減少できるという。
新聞の編集やウェブサイトの更新など大量の文書データを扱う業務では、キーワード検索やそれを用いた文書作成が業務の中で大きな割合を占める。しかし「川崎さん」や「川崎市」の「川崎」のような単語は、「人名」か「地名」かの区別がつきづらく、目的のキーワードとは無関係な結果が数多く表示されてしまっていた。
そのため必要な情報を見つけるのに手間がかかっていたほか、人名や地名などの辞書データを人手で作成しなければならず、辞書の自動生成が大きな課題となっていた。
今回開発された技術は、精度の高い固有名詞を抽出するため、固有名詞辞書の自動生成手法と生成した辞書を用いる抽出を実現したとのこと。
固有名詞の抽出には、正解事例をもとに固有名詞を抽出する規則を生成する「学習フェーズ」と、作成した固有名詞抽出規則を用いて文章から固有名詞を抽出する「抽出フェーズ」の2フェーズで処理する。新聞記事1件あたり平均0.1秒で固有名詞が抽出でき、多数の文書データへの適用も可能という。
この技術を用いることで、検索対象の文書から固有名詞を抽出し、「地名」にも「人名」にもなりうる単語の意味の違いを区別した検索が実現するとのこと。また、抽出結果から辞書データを自動生成し、固有名詞辞書に追加することも可能だ。さらに、抽出結果を視覚的に見せることによって、固有名詞の表記チェックや文書中の個人情報を匿名化する作業を支援する。
富士通研究所は今後、この技術を適用した新聞記事作成支援ソリューションを、2010年度後半に提供する予定としている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス