Facebookのデータ処理量、1日あたり500テラバイト以上--インフラ担当幹部が明かす

Donna Tam (CNET News) 翻訳校正: 編集部2012年08月24日 10時55分

 Facebook幹部が米国時間8月22日に報道陣に述べたところによると、同社は膨大な量のデータをひとまとめにして管理しているという。

Facebookのインフラを担当するJay Parikh氏
Facebookのインフラを担当するJay Parikh氏
提供:Facebook

 Facebookのインフラストラクチャエンジニアリング担当バイスプレジデントであるJay Parikh氏は、同サイトが毎日処理する大量のデータの内訳を示すために、データ統計のリストを公開した。

 Parikh氏によると、Facebookのデータの大半は単一の「クラスタ」に保存されており、そのクラスタは100ペタバイト以上のディスク容量を占めているという。Facebookのクラスタは、ほかの企業のあらゆる同様のクラスタよりも大規模だ、と同氏は主張した。

 Facebookは、30分ごとに105テラバイトのデータをスキャン(Facebookの製品チームが製品の利用状況を評価するためによく利用するプロセス)することに加えて、数百万枚の写真の管理と数十億件の「Like(いいね!)」のログ作成も行い、同サイトがそれぞれのユーザー向けにパーソナライズされた状態を維持している。

 Facebook内の機構を毎日流れるデータの内訳は以下のとおりだ。

  • Facebookサイト内外で毎日クリックされる27億件のLike。
  • アップロードされる3億枚の写真。
  • 人々と自動化されたシステムが実行する7万件のクエリ。
  • 「摂取」される500テラバイト以上の新しいデータ。

 Facebookは、このデータを利用してユーザー体験を構築しているので、広告の販売や機能の構築などを担当する同社のあらゆるチームが必要に応じて、それらすべてのデータにアクセスできることを望んでいる。Parikh氏によると、これによって、Facebook機能の開発と改善が可能な限り高速に行われる状態が維持されているという。

 例えば、友達の推薦などの機能では、ユーザーが新しい友達を追加したときにそれらのつながりを即座に確認できるようにするため、データの絶え間ない更新が必要だ、とParikh氏は述べた。

 パーソナライズされた体験が拙劣または低速ならば、人々はFacebookを利用しなくなるので、こうしたほぼリアルタイムの取り組みは同サイトの大半の機能に当てはまる、と同氏は述べた。

 「ユーザーがアップデートした写真を次の週に保存する、というようなことする余裕はわれわれにはない」(Parikh氏)

 大半の企業はデータを管理しやすくするためにデータのパーティショニング(本質的に、基準に基づいてデータを分割および保存すること)を行うが、Facebookはその代わりにデータを1カ所に保存して、アクセスしやすくしている。

 これにより、ある機能における統計や傾向(例えば、ユーザーがどれほど早くメッセージに応答しているかなど)を確認したいエンジニアは、簡単にそのデータを入手してコードを記述し、成果を上げることができる。

Big Data Whiteboard-082212

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]