Jay Parikh氏は、Mark Zuckerberg氏から1度も電話がかかってきたことがないのを喜んでいる。どうしてだろうか。それはParikh氏の仕事がうまくいっていることを意味しているからだ。Facebookのインフラストラクチャエンジニアリング担当バイスプレジデントであるParikh氏は、600人で構成されるチームを率いるとともに、Facebookを動かすマシンを、できるだけ障害を起こさずに稼働させ続けるという重要な仕事を担当している。10億人に達しようとするユーザーを抱え、人々をあらゆる方向でつなぐ機能を次々と発表する中で、それはますます難しくなっている。米国時間6月26日午前にシリコンバレーのVelocityカンファレンスで基調講演を行ったParikh氏が、Facebookのバックエンドテクノロジとデータセンターを構築するという仕事に熱心に取り組んできたのはそのためだ。
筆者は、カリフォルニア州メンロパークのFacebook本社でParikh氏と面会し、幅広いトピックについて話を聞いた。以下はそのインタビューの内容を編集したものだ。
--Twitterでは先週、サービス障害が発生しました。Facebookでも数週間前に障害が発生しました。あなたの目標は当然、システムを常に稼働させることだと思いますが、実際のところはどうなのでしょうか。
Parikh氏:何よりもまず、われわれはこの問題を非常に深刻に受け止めています。われわれは迅速に行動すること、そして常にシステムを立ち上げて、稼働させることを望んでいます。それがわれわれの第1、第2、そして第3の優先項目です。間違いがあった場合には、社内で時間をかけて、何が起こったのか、そしてそれが2度と起こらないようにするためにはどうするべきかを良く理解するようにします。
私は毎週会議を開いて、発生した問題をすべて検討しています。問題発生の時系列や、ユーザーへの影響、根本原因は何か、それをどう修正したのかという点をじっくり振り返ります。また、それを解決するためにはどうする必要があるのかについて、かなり時間をかけて議論します。多くの企業では、素晴らしいアイデアを考え出しても、それをフォルダにしまいこんで、2度と見ることはありません。一方われわれは、フォローアップに非常に力を入れてきました。
ここで重要なのは、われわれが問題の影響に注目し、迅速に行動する必要性を重視していることです。このため、ある程度のリスクは引き受けようとしています。われわれにとって、迅速な行動は最も重要であり、そこからくるリスクについては、最小化するか、影響を和らげるようにするほかありません。つまり、9億人のユーザーがいるという理由だけで、速度を緩める必要はありませんし、リスクを回避しすぎるつもりもありません。
--しかし、目標や基準値といった、目指している数字はあるのでしょうか。
Parikh氏:1つありますが、それをここでお話しすることはできません。それは、自分たちで評価するための目標です。スタックにある重要なコンポーネントのそれぞれには、別々の目標があるため、Facebookのサイトの信頼性につながる目標は非常に多くあります。またわれわれは、スタックのそれぞれの部分を、とても細かい基準値で評価しています。
--インフラの詳細について教えてください。
Parikh氏:それについては、迅速な行動に役立つあらゆる取り組みという観点からお話しするのが良いと思います。迅速な行動を実現する取り組みには、さまざまなものがあります。われわれはたくさんのオープンソースソフトウェアを使っています。そのシステムを拡大するために、ここ何年も力を注いできました。Markが2004年にFacebookのサイトを構築したときには、PHPとMySQLを使用していました。われわれは長い時間をかけて、非常に多くのものを追加してきています。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」