第3回では、これまで触れてきた「ネット時代のデータマイニングへの要望」と、それを受けた「ツールの変容」という流れを受けて、新しいインプットデータ(分析対象データ)について書いてみたいと思います。
インターネットが普及することで、企業に蓄積されるデータが増えてきたと再三書いてきましたが、大きく分けて以下の3種類の要因に大別できます。
このうち、「1」と「2」は、結果として蓄積されるデータの項目はほぼ同じであり、一部の業界では昔から存在していたデータ内容となるため、データの量的な増加以外は変化がないため、前回述べたツールの進化による対応ができています。
そこで、今回は、ネットが普及することで出現している新しいタイプのデータ「3」の取り扱いや可能性について、掘り下げてみたいと思います。
ウェブサイト上での訪問者行動の分析ということでは、従来よりウェブ解析というジャンルが存在してきましたが、これらは「ページビュー(PV)数」「コンバージョン数」「ユニーク訪問者数」「広告などのROI」「特定経路のパターン別通過数」といった情報(指標)を把握して、サイト上の導線の問題を明らかにしたり、広告効果を測定したりすることを目的に利用されてきました。
つまり、ウェブ解析は、サイト訪問者を総体として扱う解析であり、個々の訪問者を生活者(購買者)と見立てて、その関心を明らかにするためのものではありません。
サイト改善のための方向性を出したり、ネット広告の出稿プランニングを行ったり、その効果を検証したりする上では非常に有用ですが、その分析から、サイト訪問者1人ひとりを区別して把握し、その関心対象や関心度合いを推定するようなことには向いていません。
インターネットのユーザー数自体が右肩上がりに増え続けていた時代、あるいは新規サービスの立ち上げフェーズで顧客の新規獲得だけに注力していればいいようなビジネスステージの場合には、このような従来型のウェブ解析だけで十分機能してきました。
しかし、徐々に成熟ステージに入り、ユーザー数の増加率が鈍化するにつれ、1人あたり顧客価値(ビジネスにより「購買単価」「滞在時間」「閲覧広告数」など異なる)の向上が課題になると、この種の解析では情報の粒度が粗過ぎて、施策の精緻化のための判断材料にはなりません。
つまり、ウェブ解析では、「サイトのリニューアル」はできても、「ユーザー単位のメールやサイトのコンテンツの切り替え」には役立たないことになります。
このような背景から、訪問者の嗜好を個々に分析するため、ウェブログに対して、データマイニング的にアプローチする必要性が出てきます。
従来のウェブログ解析は、1訪問(≒セッション)を最小単位にしてユーザーのサイト上での行動を集計し、それを任意の分析軸でさらに再集計する形で、各種指標を算出しています。
これに対して、ユーザーに注目して、その行動を分析するには、ユーザーのクリック単位の行動履歴が必要になるため、ユーザーの行動をクリック単位で蓄積した「クリックストリーム・ウェアハウス」が必要となります。
このクリックストリーム・ウェアハウスの構築には、色々な方法が考えられますが、参考例として、当社でクリックストリーム・ウェアハウスを構築した際のシステム例を下記に簡単にご紹介します。
この際は、ウェブサーバの上流にあるスイッチから、ミラーポート機能でユーザーとサーバの間で交わされるトラフィックをコピーして、パケットキャプチャー方式のログ解析エンジン(Auriq SystemsのRTmetricsを利用)を介して、リアルタイムにトラフィックを解析し、その結果をユーザー単位(厳密にはCookie単位)でデータウェアハウス(SybaseのSybaseIQを利用)に取り込みました。
これに、CookieとユーザーID(ユーザー登録があるもののみ)の対応表を利用して、顧客DBや購買履歴DBのデータと紐付けることで、どういうサイト行動をとったユーザーが何を購買したのか、ということまで追いかけることができるデータウェアハウスの構築を実現しました。
このクリックストリーム・ウェアハウスを分析することで得られる効用は、従来が“「誰」(どんな属性の人)が「何をどの位買った」のか”という分析しか出来なかったのに対して、“「誰」が「何を見て」「何をどの位買った」のか”という把握が可能になることです。
結果として、これらのデータをデータマイニングすることで、より深い顧客理解が進み、サイトで特定行動をとったユーザーについて、その将来の行動(購買の可能性や、購買商品)を推定することができるようになります。
CNET Japanの記事を毎朝メールでまとめ読み(無料)