NTTデータが「Hadoop」戦略の最新動向を米国で披露--富士通とストレージシステム共同開発

  • このエントリーをはてなブックマークに追加

 注目が集まるビックデータ分野を支える技術の本命は、オープンソースの分散処理ソフトHadoopだろう。Hadoopは、Googleが唱える大規模データ処理方式を実装したオープンソースソフトウェアで、テラバイト~ペタバイト級のデータの蓄積・処理を得意とする。IBMはHadoopをベースとした製品をリリースし、オラクルは主要製品ExadataとHadoopのコネクタを発表して連携を推し進めている状況だ。

 こうした中、米国ニューヨークで11月8日より2日間「Hadoop World NYC 2011」が開催された。Hadoop Worldは第3回目の開催で、最新事例や技術に関する情報が一同に集まるイベントとして知られている。27カ国から1400名以上が集まり、60を超える講演が繰り広げられた。

講演したのは、NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリストの政谷好伸氏 講演したのは、NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリストの政谷好伸氏

 このイベントにおいて、NTTデータは「Hadoop's Life in Enterprise Systems」と題して、基盤システム事業本部 OSSプロフェッショナルサービス シニアスペシャリストの政谷好伸氏が講演し、新たな取り組みを発表した。NTTデータは、早くからHadoopに取り組んでおり、商用システム構築・運用の実績を持っていることで知られている。Hadoop技術者であれば必見といわれる資料「分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業報告書(PDF)」も、NTTデータのHadoop技術者らが執筆した。

 講演において、NTTデータは富士通と共同開発したHadoop向けストレージシステムを発表した。Hadoopでは、分散ファイルシステム「HDFS」(Hadoop Distributed Filesystem)を利用するのが一般的である。しかし、現在のHDFSでは、他システムのデータの共用や利便性の高いバックアップ、高度なアクセス権管理が難しかった。そこで、両社は富士通のストレージシステム「ETERNUS」を拡張し、これらの課題を解決するストレージシステムを開発したという。

 開発されたストレージシステムでは、従来のHDFSと同様にHadoopから高性能に利用できることはもちろんのこと、「POSIX」と呼ばれる広く浸透した規格に対応することで、Hadoop以外の外部システムからもストレージ内のデータに容易にアクセスできる。これにより、データの入出力にかかる時間が短縮できるほか、一元的なデータ管理を実現しやすくなるという。

 さらに「ETERNUS」がベースとなっているため、既に実績のあるバックアップ方式や運用管理手法が利用できる。NTTデータの基盤システム事業本部 シニアエキスパートである濱野賢一朗氏によると、「金融分野などでは、Hadoopの有用性が注目されるとともに、従来システムとの親和性向上に高い期待がある。今回のストレージシステムはその課題を解決する有力な選択肢のひとつだ」という。

 EMCの「Greenplum HD」やIBMの「BigInsights」などでもファイルシステムレベルでの改良が加えられているが、いずれも新しく実装されたソフトウェアで解決されている。「高信頼性システムでは、データストアは十分に枯れていることが求められる」(濱野氏)ことを考えると、既に実績があるストレージシステムをベースとしている点は、スムーズな導入を後押しできるといえそうだ。

  • 共同開発したストレージシステムの概要

    NTTデータ講演資料

  • 共同開発したストレージシステムのアーキテクチャ

    NTTデータ講演資料

 NTTデータでは、Hadoopの適用先は大きく2つのエリアに分類できるという。1つは大容量データを扱うシステムであり、テレコム分野などに多い。たとえばライフログを扱い、数ペタバイト級のデータを格納・処理する。もう1つは、データ容量は大きくないもののデータ件数が非常に多いシステムだ。流通や小売、金融など多くのシステムがここにあたる。「どちらの領域もHadoopパワーの恩恵にあずかることができるが、今回のストレージシステムでは主に後者を想定しており、サーバ20台程度で、データ容量も数テラバイト級のHadoopシステムでの利用がターゲットだ」(政谷氏)という。NTTデータにおいて既に実証は終えており、2011年度中に富士通にて商用化する計画だ。

 講演では、ほかにも新しい取り組みが紹介された。1つは、リレーショナルデータベースとHadoopの間で高速にデータを転送するソフトウェア「Sqoop」の改良だ。Hadoopのデータをより高速にPostgreSQLにロードさせる仕組みを実現し、オープンソースソフトウェアとして公開しているという。また、Hadoopの活用方法として機械学習など高度な分析処理に注目が集まっているが、NTTデータではHadoopだけでなくGPGPU(GPUによる汎目的計算)と組み合わせることによって、より高速な処理を実現できるとしている。「特に、データのクラスタリング(グループ分け)処理では効果が大きい。検証では、Hadoop単体に比べて約60倍の性能を実現できた」(政谷氏)という。

  • 大きく2つに分類されるHadoopの適用領域

    NTTデータ講演資料

  • Hadoopからリレーショナルデータベースに高速なデータロードを実現するアイデアを実現し、OSSとして公開

    NTTデータ講演資料

  • HadoopとGPGPUを組み合わせた検証システム

    NTTデータ講演資料

 当初のHadoopは1つのソフトウェアとして注目を集めていたが、いまや周辺のオープンソースソフトウェアの登場や商用製品との連携強化に支えられた「Hadoopエコシステム」が成長を支えているといわれている。NTTデータがこの領域で力強く活躍するように、ビックデータを支える技術でも、海外の流れに押されるだけでなく、日本から積極的に発信を続け存在感を示すことが、新しいシステムを“グローバル”に推し進める鍵になっていくだろう。

ビッグデータ技術の本命「Hadoop World NYC 2011」開催--NTTデータなど講演

  • このエントリーをはてなブックマークに追加