ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超

別井貴志(編集部)2006年02月02日 23時28分
  • このエントリーをはてなブックマークに追加

 ライブドアは2月2日、「livedoor 検索」のブログ検索において新たにN-gram方式による検索エンジンへ移行し、検索ワードの一部しか知らなくても目的のサイトを見つけられる「部分一致検索」が可能になったと発表した。N-gram方式の検索対象ブログは2000万件を突破したという。

 また、これと同時にワンクリックで文字サイズを「大」「中」「小」に変更できる機能も付けた。

 検索エンジンは、検索ワード(文章)を単語単位に分割して認識しており、その単語に関連性が高いと判断したサイトを順番に検索結果として表示する。ここで、文章を単語に分割する方法は大きく2つに分かれる。1つは、あらかじめ検索エンジンに用意した単語の辞書ファイルに沿って分割する「形態素解析」だ。もう1つは、文章をN文字単位で分割して単語として扱う「N-gram」だ。

 たとえば、「ライブドアの検索」という文章ならば、形態素解析では「ライブドア」「の」「検索」と分割する。英語では、単語と単語の間にスペースが入るので認識しやすいが、日本語の場合は、単語の辞書ファイルを用意しなくてはならない。これがN-gramの場合、Nを2文字単位と指定すれば、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」と分割し、それぞれを単語として扱う。強制的に分割するので、別途辞書ファイルを用意する必要がない。

 そのため、一般的に認識する単語のデータ量は、形態素解析よりもN-gramのほうが多くなるので、検索を高速に処理するのは不得手(Nを何文字にするかによっても大きく変わる)とされている。しかし、別途辞書ファイルが必要ないため多言語でも通用するほか、網羅性が高く検索の漏れがなくなりやすいとされている。

  • このエントリーをはてなブックマークに追加