沖電気など、ウェブページから新語を抽出する技術を開発

ニューズフロント2005年07月21日 16時31分

 沖電気工業と情報通信研究機構(NICT)は7月21日、ウェブページから新語を抽出してその用語の属性を判別する技術を発表した。約1億文字のテキストデータを1日で処理し、最新用語を継続的に抽出する性能を持つという。

 沖電気とNICTが共同開発したこの技術は、収集したウェブページのデータに形態素解析を施して用語を抽出するので、名詞のみで構成される用語だけでなく、助詞などを含む用語も取り出せる。さらに、抽出した用語の形態素に固有表現抽出や既存辞書とのマッチングを行い、用語全体の属性を判別し、推定する。「実システムへの導入を考慮して処理を高速化しており、テキストデータで200MB(約1億文字)のウェブページを平均1日で処理できる」(沖電気、NICT)

 同技術を利用すると、従来は追加が困難だった最新用語を、高速かつ自動的にウェブページから獲得して判別が可能になるという。それにより、「インターネットユーザーが新語をリアルタイムで検索できるようになり、情報検索や抽出システムの精度も向上できる」(沖電気、NICT)

 沖電気は、プロバイダ向け情報収集支援サービス「MAILPIA」や、三菱総合研究所と共同開発中の次世代型検索エンジン「Bluesilk」に、同技術の導入を進めていく。

 技術の詳細は、7月22日から23日に沖縄県宜野湾市で開催される情報処理学会自然言語処理研究会にて紹介する予定だ。

沖電気工業のプレスリリース

情報通信研究機構

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]