お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

企画特集

企画特集一覧

注目コンテンツ

本日の主要記事

ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超

別井貴志(編集部) 2006/02/02 23:28

 ライブドアは2月2日、「livedoor 検索」のブログ検索において新たにN-gram方式による検索エンジンへ移行し、検索ワードの一部しか知らなくても目的のサイトを見つけられる「部分一致検索」が可能になったと発表した。N-gram方式の検索対象ブログは2000万件を突破したという。

 また、これと同時にワンクリックで文字サイズを「大」「中」「小」に変更できる機能も付けた。

 検索エンジンは、検索ワード(文章)を単語単位に分割して認識しており、その単語に関連性が高いと判断したサイトを順番に検索結果として表示する。ここで、文章を単語に分割する方法は大きく2つに分かれる。1つは、あらかじめ検索エンジンに用意した単語の辞書ファイルに沿って分割する「形態素解析」だ。もう1つは、文章をN文字単位で分割して単語として扱う「N-gram」だ。

 たとえば、「ライブドアの検索」という文章ならば、形態素解析では「ライブドア」「の」「検索」と分割する。英語では、単語と単語の間にスペースが入るので認識しやすいが、日本語の場合は、単語の辞書ファイルを用意しなくてはならない。これがN-gramの場合、Nを2文字単位と指定すれば、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」と分割し、それぞれを単語として扱う。強制的に分割するので、別途辞書ファイルを用意する必要がない。

 そのため、一般的に認識する単語のデータ量は、形態素解析よりもN-gramのほうが多くなるので、検索を高速に処理するのは不得手(Nを何文字にするかによっても大きく変わる)とされている。しかし、別途辞書ファイルが必要ないため多言語でも通用するほか、網羅性が高く検索の漏れがなくなりやすいとされている。

コメントスレッド

関連ホワイトペーパー (ZDNet Japan)

ハイドロゲン

ハイドロゲン
今人気急上昇中のスポーツブランドはコレ!

ストレッチリフレ

ストレッチリフレ
高速微振動で骨格を補正。美しい体型づくり

レインシューズ特集

レインシューズ特集
メンズビジネス用も充実の品揃え

電動自転車

電動自転車
坂道も楽々♪話題のモデルが続々登場

カメラ解体新書

カメラ解体新書
注目の最新アイテムからお得情報も満載

お役立ちデジタル文具

お役立ちデジタル文具
情報のデジタル化を実現する次世代文具

特集 by 楽天市場

    インタレストマッチ - 広告の掲載について
    個人情報保護方針
    利用規約
    訂正
    広告について
    朝日インタラクティブについて