お使いのブラウザは最新版ではありません。最新のブラウザでご覧ください。

CNET Japan ブログ

リアルとWebのネットワーク分析

2006/03/08 13:55
  • このエントリーをはてなブックマークに追加

プロフィール

sentan

インターネットの先端的な科学者・識者・ビジョナリーを招いてのセミナーの内容を、自身も自然言語処理というコンピュータの先端的な研究をしているヤフー・ジャパンの山下達雄氏がわかりやすく紹介します(このブログの更新は2006年3月28日で終了しました)。
ブログ管理

最近のエントリー

先端研レポート第一弾は、2月にヤフー社内で開催された安田雪先生のセミナーのレポートをお届けします。

人脈づくりの科学 : 関係構造の不思議 - リアルとWebのネットワーク分析 

講演者:安田雪(やすだ ゆき)
GBRC社会ネットワーク研究所所長

概要:
現実の人間関係と、Web上にみられる人間関係は、表裏一体である。現実社会では観察できない関係構造がWebから可視化できる一方、Web上の情報には反映されない関係が現実には存在する。リアルな社会での人や組織のつながりと、WEB上での単語や概念のつながりを対比しながら、その特徴を考えてみたい。論点は、人々は本当にWebを通じてつながっているのか、そして、つながりの検索は可能かである。

GBRC社会ネットワーク研究所所長、東京大学ものづくり経営研究センター特任助教授の安田雪先生は、数理社会学が専門で、関係構造の分析、数量化、可視化などがメイン。サプライヤ(下請け)のつながり等の研究をしており、人・会社の広がり・連鎖をどうとらえるかということに興味を持つ。
エッセンスが詰まっている分かりやすい例(つかみ)として、「カレシの元カノの元カレを、知っていますか。」というエイズ予防のポスターを挙げてました。人のつながりの広さ・近さを意識させ、危険度を認識させるという、絶妙な啓蒙であるとのことです。先生の試算によると、前提条件次第ですが、一生5人と考えると3〜4ステップ内で十分、感染リスクにさらされるということになるそうです。人間関係の意外な近さというものを感じさせる例ですね。

seminar0602-yasuda-photo1.jpg

ネットワーク分析

まずは基礎からということで、ネットワークについて講義して頂きました。

マーケティングなどでは、その人の属性(年齢、性別、等)で分析するのが一般的であったのだが、それだけではなく、その人に影響を与えている大きな要因として、人とのつながり(消費情報を発信する情報発信者間の伝達関係)が重要ではないか、というのがネットワーク分析の出発点です。人を知るには、その人がつきあっている人を見るべし。今まで属性に偏った手法が用いられていたのですが、実際には両方組み合わせることが大事。

さてネットワークにはいくつかのモデルがあります。
規則的なもの、ランダムなもの、スモールワールド、スケールフリー。

スケールフリーとは、大多数のノードにはほとんどリンクされず、少数のノードに膨大なリンクが集まる、という構造です。インターネットのリンク・被リンクの関係はこれにあたります。一部の人気サイトにリンクが集中していることから実感できるかと思います。このようなスケールフリーのネットワークは以下に示す単純なルールで作られていきます。

  1. 最初は2人いる。お互いにリンク。
  2. 一定期間ごとに新人(新ノード)を追加する。
  3. その際、新人は既存の誰か2人にリンクを張る。
  4. その「誰か」は各自がすでに持っているリンク数に比例した確率で選択される。

人気のある人(サイト)にはどんどんリンクが集まり「ハブ」となるわけです。これは優先的選択モデルと呼ばれていて、これにそってネットワークが成長していくとスケールフリーになるのです。

ネットワーク構造の解説で、私のオススメ本は「新ネットワーク思考」(バラバシ著、NHK出版)です。基本から分かりやすくかかれています。興味を持たれた方はぜひどうぞ。

関係構造とマーケティング

セミナーは安田先生の研究の話へ移っていきます。

■「Yahoo!掲示板」の研究

これは、現在スタンフォード大学に行っている産総研の松尾豊さんとの共同研究。
2003年〜2004年の株式別掲示板を対象に、ユーザーの投稿行動パターンや言及している企業名などのデータから、企業間の関係やその変化を取り出すというものです。株関連の掲示板で活動する在野の投資家の視点から、企業動向がマイニングできるのです。

分析されたデータからもスケールフリー構造が浮かび上がってきたそうです。例えば、ある企業についての話題を扱う掲示板で言及されている他の企業を見てみると、ほぼスケールフリー構造。着目する企業が異なると同時に言及される企業群がまったく変わってきます。

他にも様々な有用そうな情報が浮かび上がってくるそうです。

■mixiの研究

mixiの友達リンク(マイミク)やコミュニティのネットワーク構造分析の話です。
昨年9月に京都大学で行われた社会情報学フェア2005での発表も話題になりました。
例えばマイミク数もインターネットのサイトのリンク・被リンク関係で見られたように、何人かのユーザがハブとなってスケールフリー構造を形成しているそうです。インターネット全体と同じような構造が閉じたネットワークでも構成されるんですね。他にも様々な切り口で分析するとあちらこちらでスケールフリー構造が現れるそうです。詳細は、今後論文で発表されるそうです。楽しみです。

ATRの湯田聴夫さんの2005のMixiの内部構造のミートボール図も紹介されてました。これは凝縮された関係がボールとして表現される印象的な図です。現在Web上にリソースがないのですが、湯田聴夫さんのWebページをウォッチしてると何か得られるかもしれません。

■グリコおやつパックの研究

グリコの置き菓子「オフィスグリコ」というものがあります。置き薬のように何種類かのお菓子が常備され、好きなお菓子を取りだして食べることができるというものです。

どのお菓子が人気なのでしょうか?
そしてお菓子同士の関係はいかに?

ということで、Web上での「お菓子」についての言及ページを対象に、個々のお菓子同士の共起関係を取り出し、それを元にシンプソン係数で関係の強さ計算しネットワーク化します。するとスケールフリー気味な結果が出たそうです。とりあえずポッキーが一番人気でした。これがハブですね。

同様の手法の適用による研究として、安田・松尾「人工知能学会における研究者ネットワークの分析」があります。お菓子ネタの方は、実生活への実用的な応用と言えるかもしれませんね。

ネットワーク分析のための手法・ツール

質疑応答でネットワーク構造分析ソフトについての話がありました。

UCINET 6 Social Network Analysis Software

ネットワーク分析用ソフトの定番だそうです。
無料の試用版があります(30日間)。
また、安田先生が書かれたUCINETのチュートリアルもあります(有料です)。

セミナーを終えて

お菓子の話で出てくるシンプソン(Simpson)係数とは関係の強さを測定する指標の一つで、
seminar0602-yasuda-siki1.png
で計算されます。

Yahoo!を使って計算してみました。検索結果ページの右上にヒット数が出ますのでそれを出現頻度として使います。

例えば、パンダとペンギンの関係の強さを計算してみます。
パンダのヒット数|X|は1130万件、
ペンギンのヒット数|Y|は860万件、
「パンダ ペンギン」のヒット数|X∩Y|は141万件、
でしたので、シンプソン係数は約0.16になります。
他に、カピバラ、アザラシ、マントヒヒを加えて、
各動物間のシンプソン係数を計算し、
0.1以上の関係だけを用いて図にしてみました。

seminar0602-yasuda-zu1.png

陸の動物と海の動物という2つのグループが認識できそうです。パンダ、ペンギンはどちらもメジャーなので関係が強いみたいです。カピバラは水辺に生息しているので海の動物にも関係がありそうです。数を増やせば、もっとしっかりした動物同士の関係ネットワーク(Web口コミベース)が作れますね!?

※このエントリは CNET Japan ブロガーにより投稿されたものです。朝日インタラクティブ および CNET Japan 編集部の見解・意向を示すものではありません。
運営事務局に問題を報告

最新ブログエントリー