logo

SPSS、より高速、正確なテキストマイニングを実現する 「Text Mining for Clementine 2.2J」を出荷

~係り受け解析処理を高速化、新たに文境界推定機能を追加しビジネス用途に対応~

エス・ピー・エス・エス株式会社 2005年12月15日 09時00分

Predictive Analyticsを提唱するエス・ピー・エス・エス株式会社(以下 SPSS Japan)は、データマイニングツール「Clementine」の環境でテキストマイニングを行う「Clementine」用プラグインソフト「Text Mining for Clementine(TMC)」の最新バージョン「Text Mining for Clementine 2.2J」(以下、TMC2.2J)の出荷を12月15日から開始することになりましたので、お知らせします。

今回リリースする「TMC2.2J」では、係り受け解析処理が高速化されたため、大容量のテキストデータをより短時間で処理することが可能になり、研究機関、教育機関はもちろん、激変するビジネスの現場のニーズにより適ったパフォーマンスを示すことができるようになりました。データマイニングで扱ってきた従来の数値データに加え、さまざまなファイル形式で保存されたテキストデータをClementineという同一のプラットフォーム上で処理できる“混合マイニング”が実践でき、テキストのみを解析しているだけでは得られない、新たな知見を得ることができます。

価格はClementine9.0を含み、最小構成価格(税抜)9,000,000円~、SPSSによる直販とビジネスパーナーの販売により、初年度150ユーザーへの販売を見込んでいます。

日々企業に集積されているデータは、属性、購買データのように既に構造化(数値化)されたデータだけではありません。SFA、コールセンター、その他CRMで集められた顧客意見、またはアンケートの自由記述文、企業・競合情報などのWebページ、e-mailなどのテキストデータは、構造化されていないデータの典型例であり、これらの非構造化データは全データの7-8割を占めると言われています。そこで今日に至っては、テキストデータへの関心が高まり、多くの企業がテキストをマイニングが実践できる環境を整えつつあります。しかしその一方、テキストマイニングとはひと言で言ってもその環境は多様であり、テキストだけを扱う場合も多く、さまざまな属性データとひも付け、多角的な切り口で関係性を調べる深いマイニングを行う環境が十分考慮されているとは言えません。

これに対し「TMC」では、Clementineというデータマイニングプラットフォーム上で“混合マイニング”を実践する環境を提供するために製品を強化してきました。テキストデータで得られた知見を属性データで検証する、あるいは、テキストデータと属性データを合わせて予測モデルを構築するといった様々な分析のアプローチを可能にしています。またClementineで作成したモデルは他のアプリケーションや業務プロセスへと展開できるため、顧客への対応を迅速化するための別の営業用のアプリケーションの開発に役立てることも可能です。

新バージョン「TMC2.2J」では、係り受け解析処理の高速化が実現されています。精度の高い係り受け解析を求めた場合、解析速度には目をつぶるといったジレンマが往々にして生じますが、新バージョンにおいては、精度を維持し、かつ高速化を実現した係り受け解析ソフトウェア「南瓜」の最新バージョン(*1)を組み込んでいます。

また「TMC2.2J」では、文境界を推定するソフトウエア(*2)を新たに組み込んでいます。テキストデータには、さまざまな意味合いで記号や改行コードが使われています。単純な機械処理では、これらが原因となって文の境界が間違って認識され、正しい係り受け解析結果を導くことが難しくなります。そこで新バージョンでは、学習モデルに基づいた文境界を自動的に推定する機能を組み込んでいます。(*1および*2は、奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座が開発したソフトウェアです。)

さらに「TMC2.2J」では、テキストマイニングで最も時間と労力を費やすクリーニングの時間を短縮するために、ストップワード機能を強化しています。またテキストデータ内に散りばめられている意見や評価などのさまざまな表現を抽出する機能を備えています。ユーザーは “否定的”、“肯定的”、“依頼”、“禁止”、“許可”、“義務”、“推量”といった表現事例が登録されている設定ファイルをもとに、ビジネスの各分野で有用な表現を、EXCELを用いて追加・修正し、カスタマイズを行っていきます。テキストマイニング実行に使用する辞書関連ファイルの選択にあたっては、ファイルを指定する専用のダイヤログボックスが追加されており、ユーザーの利便性を追及したテキストマイニング環境を準備しました。

また「TMC2.2J」は、日本語を解析するための自然言語処理エンジンを組み込んでいますが、「TMC2.2J」のユーザーには、欧米語(英語、英語- フランス語、フランス語、ドイツ語、イタリア語、スペイン語、オランダ語、Mesh (医学件名標目表))を解析できる環境も併せて提供しています。

「Text Mining for Clementine 2.2J」の製品概要は、次のとおりです。

以 上

<「Text Mining for Clementine 2.2J」の製品概要>
■製品名:Text Mining for Clementine 2.2J
■発売日:2005年12月15日
■販売方法:SPSSによる直販とビジネスパートナー経由の販売
■販売目標:150ライセンス

■システム要件
Text Mining for Clementine 日本語版 はClementine と同じマシンにインストールされるため、システム必要条件は基本的に Clementine と同じになります。しかし、以下の内容に関しては異なります。
・ OS :WindowsXP, Windows NT4.0 (SP6 以上)、 Windows 2000
・ IE5.5 以上、Netscape Communicator 6.0 以上(テキストマイニング ビューアノードの使用にはブラウザが必要です)
・必須ソフトウェア:Clementine 9.0以上

(以下Clementineのシステム要件)
■Clementine Client
・OS :Microsoft Windows XP、Windows 2000 Professional
・Hardware :Intel(r) Pentium(r)互換機
・メモリ :512MB RAM 以上推奨
・HDD空き容量 :320MB以上
■Clementine Server(Windows以外はお問い合わせください)
・OS :Microsoft Windows Server? 2003、 2000
・Hardware :Pentium互換機(Windows)
・メモリ :512MB RAM以上推奨、インストール用に最低128MB以上
プログラム実行には別にHDD容量が必要になります(1GB以上推奨)

<SPSSについて>
SPSSが提唱するPredictive Analyticsは、現状および将来についての信頼できる結論を的確に描き出すように、データをビジネス上有効なアクションに結びつけることをいいます。
SPSSは、Predictive Analyticsソリューションの第一人者として、ソフトウェア製品と関連サービスを提供しています。SPSSが提供するソリューションは、企業・教育研究機関・医療機関・政府官公庁など、Fortune1000社の95%を含み幅広く導入されています。1968年に設立されたSPSS社の製品は、全世界25万人以上に利用されています。

本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。