> >

米ヤフー、機械学習データセットを学術研究向けに公開--13.5テラバイトの非圧縮データ

Rachel King （CNET News）翻訳校正：湯本牧子吉武稔夫（ガリレオ）2016年01月15日 11時48分

　米Yahooは、過去最大級と銘打つ機械学習データセットを、学術研究コミュニティーを対象に公開した。

　Yahoo Labsで研究担当ディレクターを務めるSuju Rajan氏が声明で説明したところによると、Yahooがデータセットを公開する目的はイノベーションを促すためだが、特に機械学習技術用のデータを、どのように方向転換させて新たな目的に利用できるかを念頭に置いているという。

　Rajan氏は次のように述べている。「真に大規模なデータセットへのアクセスは従来より大企業の特権とされており、多くの学術研究者やデータサイエンティストはこれにアクセスできない」

　「Yahoo News Feed」と呼ばれるこのデータセットは実際のところ、さまざまなYahooのサービスを利用するユーザー約2000万人のユーザーインタラクションを匿名化したサンプルセットにすぎない。これらのサービスには、「Yahoo Finance」「Yahoo Sports」「Yahoo Movies」「Yahoo Real Estate」に加えて、通常のトップページと「Yahoo News」が含まれる。

　13.5テラバイト（1万3500Gバイト）の非圧縮データからなるこのデータセットは、2015年2～5月だけで1100億を超えるさまざまなイベントをカバーする。

　繰り返すがユーザーデータは匿名化されており、研究者に公開されるデータには、年齢層、性別、一般化された地理的データのほか、ニュース記事などアクセスされたコンテンツのタイムスタンプ、タイトル、サマリ、キーフレーズ、閲覧に使われたデバイスやチャネルが含まれる。

　Yahooはすでに、データセットを利用する学術パートナーをいくつか獲得している。

　カリフォルニア大学サンディエゴ校（UCSD）ジェイコブズ・スクール・オブ・エンジニアリングは、機械学習、人工知能、ビッグデータの応用分野で進めている研究の向上を目的としてデータを利用する計画だ。

　UCSD電気情報工学部のGert Lanckriet教授は、米国時間1月14日の発表で次のように説明した。「この規模のデータセットへのアクセスは、真に『ビッグ』なデータにも対応できる機械学習のアルゴリズムや技術を設計および開発する上で不可欠だ」

　研究者らは、Yahoo Labsが提供するデータ共有プログラムのオンラインライブラリ「Webscope」を通じてデータセットにアクセスできる。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）