学生エンジニア、ネットの話題分類メディア「blogeye」を刷新--属性推定精度が向上

島田昇(編集部)2008年01月23日 22時09分

 学生エンジニアで東京大学情報理工学系研究科の大倉務氏は1月22日、独自開発したネット上の話題が自動分類・集計されるメディアサービスを刷新した。約2億7000万件の記事をベースとすることで、属性自動推定システムの精度が向上。これを機に属性カテゴリの増加なども視野に入れ、一般ネット利用者以外にも企業のマーケティング担当者の利用なども見込む。

 刷新したのは「blogeye」。「著者属性推定技術」と呼ぶ技術を用い、約450万ブログの記事にあるキーワードを分析することで、性別、年齢、居住地を推定する。これにより、例えば、「関東圏の10代の男性が今注目している話題は何か」などが分かるようになるという仕組み。

 今回の刷新により精度が向上。性別で9割弱、都道府県別の居住地で7割、年齢は5割の正確性を確保できたとしている。

 大倉氏によると、記事で用いられる言葉には一つの属性を判別するために必要なキーワードが1000語程度あるという。例えば、「学校」というキーワードが頻繁に出てきたら、「著者は学生である確率が高い」といった具合だ。

 精度向上により、分類属性を増やしても高い品質を維持できると判断したため、今後、性別、年齢、居住地以外のカテゴリも追加。「マーケティングデータとしてより価値の高いデータを収集できるようになる」と見ている。

 ただ、現時点でのビジネス展開などは考えておらず、実質半月程度だった立ち上げ初月となる2007年12月時点で月間約2万PVだった閲覧数を、まずは拡大していく方針。

 blogeyeは2007年12月中旬開設。大倉氏が開発し、独立行政法人情報処理推進機構(IPA)が行うIT関連人材支援事業「未踏創造プロジェクト」の採択を受けた技術をベースに開発した。

画像の説明 「著者属性推定技術」の仕組みについて説明する大倉務氏

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]