NTTレゾナントは、ポータルサイト「goo」の画像、動画、音楽検索エンジンにBasis Technologyの言語判別システム「Rosette言語判別システム」を採用した。Basis Technologyの日本法人であるベイシス・テクノロジーが2月6日に明らかにしたもの。
Rosette言語判別システムはテキストデータがどの言語や文字コードで書かれているかを高速で判別し、ほかのアプリケーションにその情報を提供するもの。これによりアプリケーションがデータを処理する際の文字化けを解消するとともに、言語ごとの仕分けを容易にする。
英語、日本語、中国語(簡体字、繁体字)など世界の主要40言語と、UTF-8、Windows-1252など29種類の文字コードに対応。これらの言語、文字コードで記述したテキストデータを、平均99.45%の精度で判別するという。
NTTレゾナントは同システムの採用によりgooの自然言語処理を最適化し、画像、動画、音楽といったマルチメディアコンテンツをキーワードを使って効率的に検索できるようにしたとしている。
なおBasis Technologyの言語処理技術は、Google、Microsoft、Yahoo!なども採用している。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」