Facebook幹部が米国時間8月22日に報道陣に述べたところによると、同社は膨大な量のデータをひとまとめにして管理しているという。
Facebookのインフラストラクチャエンジニアリング担当バイスプレジデントであるJay Parikh氏は、同サイトが毎日処理する大量のデータの内訳を示すために、データ統計のリストを公開した。
Parikh氏によると、Facebookのデータの大半は単一の「クラスタ」に保存されており、そのクラスタは100ペタバイト以上のディスク容量を占めているという。Facebookのクラスタは、ほかの企業のあらゆる同様のクラスタよりも大規模だ、と同氏は主張した。
Facebookは、30分ごとに105テラバイトのデータをスキャン(Facebookの製品チームが製品の利用状況を評価するためによく利用するプロセス)することに加えて、数百万枚の写真の管理と数十億件の「Like(いいね!)」のログ作成も行い、同サイトがそれぞれのユーザー向けにパーソナライズされた状態を維持している。
Facebook内の機構を毎日流れるデータの内訳は以下のとおりだ。
Facebookは、このデータを利用してユーザー体験を構築しているので、広告の販売や機能の構築などを担当する同社のあらゆるチームが必要に応じて、それらすべてのデータにアクセスできることを望んでいる。Parikh氏によると、これによって、Facebook機能の開発と改善が可能な限り高速に行われる状態が維持されているという。
例えば、友達の推薦などの機能では、ユーザーが新しい友達を追加したときにそれらのつながりを即座に確認できるようにするため、データの絶え間ない更新が必要だ、とParikh氏は述べた。
パーソナライズされた体験が拙劣または低速ならば、人々はFacebookを利用しなくなるので、こうしたほぼリアルタイムの取り組みは同サイトの大半の機能に当てはまる、と同氏は述べた。
「ユーザーがアップデートした写真を次の週に保存する、というようなことする余裕はわれわれにはない」(Parikh氏)
大半の企業はデータを管理しやすくするためにデータのパーティショニング(本質的に、基準に基づいてデータを分割および保存すること)を行うが、Facebookはその代わりにデータを1カ所に保存して、アクセスしやすくしている。
これにより、ある機能における統計や傾向(例えば、ユーザーがどれほど早くメッセージに応答しているかなど)を確認したいエンジニアは、簡単にそのデータを入手してコードを記述し、成果を上げることができる。
Big Data Whiteboard-082212
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」