ライブドアは10月10日、国内主要ブログを対象とした検索エンジン「livedoor ブログ検索」を、スパムブログを排除できるようにバージョンアップした。自社開発のスパムフィルタ「スパムちゃんぷるー」を導入し、検索結果にスパムブログが表示されないようにした。
ライブドアが考えるスパムブログの定義とは、「一般的なブログの読み手や、ブログ検索を利用する人の意図に反するもの」だ。例えば、ほかのブログをそのままコピーしていたり、本文がアフィリエイトリンクの羅列だけだったりするものが、スパムとみなされる。
ライブドアは100万件ほどのサンプルブログをデータベースとして保持しており、それらとの一致度によってスパム判定が行われるという。
コピーに関しては自動、手動にかかわらずスパムとして扱われる。またニュース記事などを引用し、ブロガーが一言コメントを付けたものもデータベースとの一致度が高くなるため、スパムとして検索結果から除外されてしまう。
もちろん、一部引用という形でオリジナルの文章の分量が多ければ、データベースとの一致度が低くなり、スパムとして扱われなくなるという。
ニフティは2008年3月に国内ブログの約40%がスパムブログであるという調査結果を発表した。また同7月には総務省が国内ブログのうち12%がスパムブログであるという調査結果を発表した。
さらにライブドアが、スパムブログが発生しやすい3つのキーワードでスパムブログの割合を調査したところ、そのスパム含有率は68.9%にも上ったという(調査対象キーワードは非公開)。
なぜこんなにも多くのスパムブログが存在しているのだろうか。ライブドア メディア事業部開発部システム開発1グループエンジニア山下拓也氏は、「とにかく流行のキーワードを混ぜた意味のないブログを大量に作ってアフィリエイトリンクを仕込んでおけば、勝手に検索エンジンに拾われて、お金が入るという図式があるため」だという。
「まず検索結果から排除していくことで、無意味にネットを汚染するブログが出てくる風潮を防げる。そうすれば検索を使う人の利益にもなるし、各サービスで無駄な資源を抱え込まなくても済むという思想です」(山下氏)
livedoor ブログ検索はライブドア独自の検索エンジンで、1日に約20万回の検索が行われている。検索キーワードとして多いのは、その日に話題になった芸能人ネタだという。芸能人に関するニュースではなく、それに対する個人の意見を聞きたいときに使われるそうだ。
「スパム対策をしていなければ同じ意見がたくさん上に出てきてしまい、ユニークな意見が出てこなくなる。求めている人に求めている情報を届ける。これがバージョンアップの一番大きな目的」と、ライブドアメディア事業部ソーシャルメディア部サーチグループ ディレクターの須田春樹氏は話す。
今回のバージョンアップにより、スパムブログを約9割排除することが可能となり、有益サイトがスパムブログのために後位置に表示されることが少なくなったという。
スパムちゃんぷるーはライブドアの「livedoor Blog」や「livedoor Wiki」「livedoor 掲示板」へのスパム書き込みを防ぐ共通フィルタ。各サービスごとのプラグインを組み合わせて運用するため、「混ぜる」という意味でちゃんぷるーと命名したという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス