学生エンジニアで東京大学情報理工学系研究科の大倉務氏は1月22日、独自開発したネット上の話題が自動分類・集計されるメディアサービスを刷新した。約2億7000万件の記事をベースとすることで、属性自動推定システムの精度が向上。これを機に属性カテゴリの増加なども視野に入れ、一般ネット利用者以外にも企業のマーケティング担当者の利用なども見込む。
刷新したのは「blogeye」。「著者属性推定技術」と呼ぶ技術を用い、約450万ブログの記事にあるキーワードを分析することで、性別、年齢、居住地を推定する。これにより、例えば、「関東圏の10代の男性が今注目している話題は何か」などが分かるようになるという仕組み。
今回の刷新により精度が向上。性別で9割弱、都道府県別の居住地で7割、年齢は5割の正確性を確保できたとしている。
大倉氏によると、記事で用いられる言葉には一つの属性を判別するために必要なキーワードが1000語程度あるという。例えば、「学校」というキーワードが頻繁に出てきたら、「著者は学生である確率が高い」といった具合だ。
精度向上により、分類属性を増やしても高い品質を維持できると判断したため、今後、性別、年齢、居住地以外のカテゴリも追加。「マーケティングデータとしてより価値の高いデータを収集できるようになる」と見ている。
ただ、現時点でのビジネス展開などは考えておらず、実質半月程度だった立ち上げ初月となる2007年12月時点で月間約2万PVだった閲覧数を、まずは拡大していく方針。
blogeyeは2007年12月中旬開設。大倉氏が開発し、独立行政法人情報処理推進機構(IPA)が行うIT関連人材支援事業「未踏創造プロジェクト」の採択を受けた技術をベースに開発した。
CNET Japanの記事を毎朝メールでまとめ読み(無料)