これから5回の連載にわたって、「ネット時代の大容量データマイニング」と題しまして、昨今のデータマイニングを取り巻く環境や、トレンド、適応用途についてご紹介をさせていただきたいと思います。
まず、第1回目として、その技術の概要と、インターネットの普及によって生み出された膨大な容量のデータ活用に求められる新しいデータマイニング像について解説します。
そもそも「データマイニング」とは、統計学や機械学習といったデータ解析技術によって、大量のデータから、意味のあるパターンや構造を見つけ出すプロセス(や作業)を指して使われる用語です。決して新しい言葉ではなく1990年代から使われていたのですが、ITの技術用語であり通常の生活の中で利用される単語ではないため、聞きなじみがない方も多いかもしれません。
ただ、聞いたことがないからといって、私たちの生活に無関係というわけではなく、その技術自体は、大半の方がその恩恵に浴していると言ってよいと思います。一例を引くと、Amazon.co.jpのサイトを利用していると表示される各種の「おすすめ」は、レコメンデーションエンジン(推薦エンジン)によって提示されていますが、このレコメンデーションエンジン自体がデータマイニングの技術によって成り立っています。
つまり、ECサイトにおいて蓄積される膨大なデータ(購買履歴データや閲覧履歴データ)を解析して、特定の1人に対して、サイト上で次に何をお勧めしたらいいのか、という推測/判定にデータマイニングが活躍しているのです。
また、「データマイニング」という言葉をGoogleで検索すると、「Googleでデータマイニングの仕事」というGoogle自体による求人がリスティング広告として表示(2008年5月11日執筆時点)されていますが、Googleが提供している多くのサービスには、大量のデータの中から関連がある(と思われる)特定の情報を抜き出すという目的を実現するために広義でのデータマイニング技術が活用されています。
このように、データマイニングという技術は、それ単体で利用されるというよりも、何かのサービスや機能をより効率的/効果的にするために活用されることが多いため、比較的、裏方の技術として発展をしてきました。それが、20年近い歴史がある技術の割に認知度が低い一因かもしれません。
そしてもう1つ、私たちになじみが少ない理由としては、日本でのデータマイニングの利用が、実際に限定的であったことが挙げられます。マーケティングに絞ってお話をすると、つい最近まで、日本ではマスコミュニケーションが全盛であり、企業側には個々の生活者を識別して対応する必要がありませんでした。
つまり、一律にTVなどのマス媒体で1つのメッセージを流せば十分に採算がとれていた(少なくとも、とれていると思っていた)のです。これに対し、アメリカでは、ネットの普及以前からダイレクトマーケティングが発達しており、その顧客の人種やクラス(階級)もバラバラでした。
だから、DMの送付1つをとってみても、送付者の抽出から、利用する言語の選択(英語がいいののかスペイン語がいいのか)、コンテンツ選定(送付対象者のクラスによって、提案内容を組み替える)にまで精緻に設計をしなければ採算がとれないため、分析の高い必要に迫られていました。
結果、アメリカでは、データマイニングのソフトウェアメーカーやサービサー(データマイニング業務に関するサービスやコンサルティングを提供する会社)が生まれ、競争することで技術や適応用途が増えるという好循環が生み出されてきました。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力