沖電気工業と情報通信研究機構(NICT)は7月21日、ウェブページから新語を抽出してその用語の属性を判別する技術を発表した。約1億文字のテキストデータを1日で処理し、最新用語を継続的に抽出する性能を持つという。
沖電気とNICTが共同開発したこの技術は、収集したウェブページのデータに形態素解析を施して用語を抽出するので、名詞のみで構成される用語だけでなく、助詞などを含む用語も取り出せる。さらに、抽出した用語の形態素に固有表現抽出や既存辞書とのマッチングを行い、用語全体の属性を判別し、推定する。「実システムへの導入を考慮して処理を高速化しており、テキストデータで200MB(約1億文字)のウェブページを平均1日で処理できる」(沖電気、NICT)
同技術を利用すると、従来は追加が困難だった最新用語を、高速かつ自動的にウェブページから獲得して判別が可能になるという。それにより、「インターネットユーザーが新語をリアルタイムで検索できるようになり、情報検索や抽出システムの精度も向上できる」(沖電気、NICT)
沖電気は、プロバイダ向け情報収集支援サービス「MAILPIA」や、三菱総合研究所と共同開発中の次世代型検索エンジン「Bluesilk」に、同技術の導入を進めていく。
技術の詳細は、7月22日から23日に沖縄県宜野湾市で開催される情報処理学会自然言語処理研究会にて紹介する予定だ。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス