NECは4月6日、利用者が情報検索時にシステムから提示される検索ルールの中から、検索時の意図に近いものを選択することにより、検索結果を効率的に抽出する技術を開発したと発表した。
この技術は、(1)日本語の文書を自動解析し、単語に人名・地名・商品名などの属性を自動的に付与して構造化した文書データに変換する技術と、(2)構造化した文書データに対して、システムが作成した抽出ルールを適用し、ルールに該当する部分を文書から取り出す技術、(3)利用者の簡単な指示から抽出ルールを絞り込み、利用者の意図を推定して最終的な抽出ルールを作り出す技術――の3つをもとに開発された。
これにより、たとえば「新製品」の「発売」に関する検索などといった単語の使われ方を特定した検索や、あるいは、「歯磨き粉」「口臭消臭剤」「デンタルフロス」といった「オーラルケア製品」の一括検索のような、その単語の上位概念も含めた包括的な検索など、従来は不可能とされていた検索方法が可能となった。利用者のイメージにあった、柔軟な検索が容易に実行できる。
近年、検索技術の重要性が脚光を浴び、ネット上だけでなく、企業内ドキュメントの検索やCRMセンターでの利用も進んできた。しかし、現在一般的に普及している文字列検索では、関連文書をまとめて集めることやユーザー独自の絞り込み指示ができなかったため、検索漏れが多い・不要な情報が多量に集まるなどの問題があった。
こうした問題を解決するため、概念検索など単語の意味的な属性を使った検索が登場しているが、これにも、検索時に利用者が属性を指定する必要があり、属性の種類が多くなると利用者が覚えきれないことや、的確な属性が何か分からないなどの課題があり、さらに、指定した単語が持つ全ての属性で検索をかけると、利用者の意図しない文も多量に抽出されてしまうといった問題を抱えている。
今回開発した技術は、これらの課題や問題を克服し、利用者がより効率的に情報にアクセスできるようにした。利用者が指定した条件をもとに、検索システム上で抽出ルールを推定・作成し、適切なルールを利用者が選択することによって絞り込みを行う。この際、抽出ルールが持つ包含関係や背反関係など、相互の依存関係を計算することで、ルールを絞り込む際の利用者の負担を最小化している。
NECでは、この技術を同社の検索ソリューション、ドキュメント管理ソリューションなどの競争力を向上させるものと考えている。今後は、本システムの社内利用による導入効果の実証と改良をすすめ、ドキュメント管理製品・ソリューション、検索サービスなどでの早期の実用化を目指して研究開発活動を推進していくとしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
先端分野に挑み続けるセックが語る
チャレンジする企業風土と人材のつくり方
日本のインターステラテクノロジズが挑む
「世界初」の衛星通信ビジネス
NTT Comのオープンイノベーション
「ExTorch」5年間の軌跡
すべての業務を革新する
NPUを搭載したレノボAIパソコンの実力
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力