NTTレゾナントは、ポータルサイト「goo」の画像、動画、音楽検索エンジンにBasis Technologyの言語判別システム「Rosette言語判別システム」を採用した。Basis Technologyの日本法人であるベイシス・テクノロジーが2月6日に明らかにしたもの。
Rosette言語判別システムはテキストデータがどの言語や文字コードで書かれているかを高速で判別し、ほかのアプリケーションにその情報を提供するもの。これによりアプリケーションがデータを処理する際の文字化けを解消するとともに、言語ごとの仕分けを容易にする。
英語、日本語、中国語(簡体字、繁体字)など世界の主要40言語と、UTF-8、Windows-1252など29種類の文字コードに対応。これらの言語、文字コードで記述したテキストデータを、平均99.45%の精度で判別するという。
NTTレゾナントは同システムの採用によりgooの自然言語処理を最適化し、画像、動画、音楽といったマルチメディアコンテンツをキーワードを使って効率的に検索できるようにしたとしている。
なおBasis Technologyの言語処理技術は、Google、Microsoft、Yahoo!なども採用している。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
「もったいない」という気持ちを原動力に
地場企業とともに拓く食の未来