沖電気、金額や時間、重さなどの数値データを抽出するウェブ検索の新技術

ニューズフロント2006年04月11日 14時44分
  • このエントリーをはてなブックマークに追加

 沖電気工業は4月11日、指定条件の範囲に含まれる数値データをテキスト情報から抽出できるウェブ検索技術を発表した。この技術を利用すると、「重さ1キロから2キロのノートパソコン」というキーワードで、「1.2kg」という記述を見つけられるという。

 沖電気の開発した技術は、検索対象とするテキストの数字周辺に現れる単位文字列や単語の出現をもとに、金額や長さ、重さといった数値に関する記述を探し、数値の属性を判定する。現時のところ金額、時間、長さ、重さ、速度の5属性に対応しており、今後、電圧、電流、周波数、ビット、バイトなどに対応する予定だ。

 属性の判定後、その属性を代表する単位に合わせて数字部分の値を換算し、数値情報として抽出する。たとえば、属性が「長さ」の場合、「インチ」や「尺」といった単位で記述された数値はすべて「m」に直す。

 沖電気は、特定のキーワードを含むウェブページの更新情報とRSSフィードをまとめ、定期的にメールで通知する無料サービス「MAILPIA(Mail-based Personalized Information Accessing Service)」にこの検索技術を追加し、同日より提供を開始した。将来は、数値に対応した検索機能を、携帯電話コンテンツサービスにも提供していく。

  • このエントリーをはてなブックマークに追加