logo

データマイニングを取り巻くツールに自動化の流れ - (page 2)

草野?史(株式会社ブレインパッド)2008年07月25日 15時00分
  • このエントリーをはてなブックマークに追加

 KXENは、最新の数理アルゴリズムを、データ加工やモデルのチューニングのような、従来人間が行っていた判断業務の自動化に活用することで、結果として、マイニングプロセス全般の自動化を実現しています。

 自動車に例えると、上述したような高度な分析官が作業をすることを前提にした従来のツールがマニュアル車だとすれば、このソフトは最先端の数理アルゴリズムを活用することで誰でもデータマイニング作業ができることを実現したAT車のようなものです。分析用途によりバラつきはありますが、通常分析官が2カ月程度かけて実行していた分析を、数日から1週間で仕上げることが可能になります。

 下記のようなウィザード形式の数画面で、マウス操作で選択作業をするだけで、基本的なマイニング作業が完了します。その選択も、基本的に、分析の目的を理解していれば行える作業(「DB上のどのカラムの情報を予測したいか」という簡単なもの)であり、統計やコンピュータサイエンスの知識は不要であり、数時間のトレーニングで誰もが使えるようになります。

brainpad

 何よりの特徴が、人間の判断作業がほぼ不要であるため、自動化が可能ということです。これにより、データの変化に合わせて各種チューニング部分は自動的に行われるようになっていることで、基本的に一度行った分析については、自動で再実行さえすればよい、ということになります。

 つまり、従来は、1人の分析官が2ヶ月で1本の分析(モデルの作成)を実行できるとすると、年間6モデルが限界で、しかも、翌年になるとデータが変わるため分析のやりなおしが発生し、翌年も利用できるモデル数が増えないという状況でした。

 これが、1回行った分析を自動再実行するだけで最新のモデルが作成できる状態になると、1本のモデル作成に1週間かかるとしても年間48モデルを作成することができ、次年度もデータにあわせてモデルを作り直す必要がないため、別の48モデルを作成することができます。結果として、処理できるモデルの数は、表の様に増やし続けることが可能です。

brainpad

 さらに、ツールが簡単になることで、分析官の数に限定されず、多くの人間がデータマイニングに関われるようになると、この差はさらに広がることになります。これにより、増え続けるデータ量に対応することが可能になります。

brainpad

 もちろん、すべてのデータマイニング業務がこのようなツールにとって代わられると予言するものではないですが、ネット上での消費者の行動データのように、大量でかつ頻繁に変化するようなものを対象にした場合、このように自動的にトレースする仕組みが不可欠です。実際、KXENは、このような利用を前提に、外部からアプリケーションを操作するためのAPIが充実しており、このトレンドは他のマイニングツールにも波及しています。

 データ量の増加を考えると、データマイニングが「一部の専門家の手仕事」から「システムで自動実行される処理」に向かうトレンドは不可逆なものであり、今後、このような機能を実現したマイニングソフトが増え続けるものと思われます。

 この新しい時代の到来で、あらゆる会社(サイト)が複雑なアルゴリズムの開発なしに、これらツールを活用することで、独自にリコメンデーションエンジンを開発・実装できるようになると考えられます。

 次回は、このようなツールの登場で、分析量の制約が外れたため、新しく分析対象となり始めたデータの代表格として、ウェブログの活用を取り上げたいと思います。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]