logo

データマイニングを取り巻くツールに自動化の流れ

草野?史(株式会社ブレインパッド)2008年07月25日 15時00分
  • このエントリーをはてなブックマークに追加

 連載2回目は、ネット時代の要請を受けて、データマイニングを取り巻くツール環境がどのように変化(進化)をしているかを、ご紹介させていただきます。

 現在、企業内のDWH(データウェアハウス≒巨大なDB)に蓄積された膨大なデータは、例えればダムに貯められた水です。ただ水門を開け閉めするだけでは、膨大な水量(データ量)が流出してしまい、現実的に意思決定の材料としては機能しません。まさに消防ホースから水を飲むようなもので、受け手の処理能力を軽く超えてしまうのです。そこで、処理が可能な適切な量・質に情報を絞り込んで取り出す「蛇口」が必要となり、その機能がデータマイニングに求められています。

 しかし、現実問題として、そのマイニング自体が非常に高度で職人的な作業であるため、属人的な制約をうけることになります。つまり、分析者の能力と人数に限界があるため、結果として処理できる件数とデータ量にもすぐに限界が来てしまいます。

 そこで、そのような問題をカバーするためにツールの進化が求められ、ようやく、これに応えるようなソフトウェアが出始めました。

データマイニング作業の流れ

 まず、これまでのマイニング作業を理解いただくために、一般的なデータマイニング・ツールでの作業のイメージをご紹介します。

 マイニングの作業プロセスは以下のように、大きく「データ加工」と「アルゴリズムの適応」と「結果の評価」という3プロセスで構成されます。

brainpad

 このプロセスを具体的に実際のマイニングツールで実施する際、下記の画面イメージのように、様々なノードをつないで、処理フローを構成することになります。

brainpad

 この処理フローを組む操作自体は、ドラッグ&ドロップで非常に簡単に行うことができますが、

  • どのデータを使うか
  • どのノードを選ぶか
  • どういう順番でノードをつなげるか
  • (各ノードに)どのようにパラメータを設定するか
  • 結果が十分でない場合、上記のどこを変更するか

 というあらゆる操作ごとに判断作業が必要になり、その前提として統計やアルゴリズムの知識が求められます。

 つまり、「操作は簡単」だけれども「分析は難しい」わけで、ツールの簡単さとは裏腹に、データマイニング業務は、知識と経験が豊富な分析官のみが行える専門性の高い労働集約的な作業で、時間が掛かり、当然にミスも発生します。分析内容にもよりますが、一般に安定した結果を得るために2〜3カ月程度を要します。

 また、上述のように人の判断に依存するプロセスを数多く経るため、同じデータを使った分析でも、分析者の経験やスキルなどの能力で、大きく結果に差が出てしまうことになり、企業が安心して業務に活用する上で障害になっています。何より、作業のプロセスの多くがデータ加工部分で占められていることから分かるように、(時間の経過等で)データの内容が変わると、最初から作業を行う必要があるという問題が残ります。

マイニングの自動化ニーズ

 このような問題の解決のため、第1回のコラムでもご紹介した

  • ネット時代の大規模データを処理できる能力
  • 専門職以外の人間でも作業できる簡易性
  • 日々変わる状況を自動でトレースするシステムへの組み込み容易性

 が求められており、これらに応える次世代のツールが登場しはじめています。その代表例が、KXEN社のKXEN Analytics Frameworkです。

-PR-企画特集