グーグルの研究が示すメモリエラーの真実--明らかになった高い発生率

文:Stephen Shankland(CNET News) 翻訳校正:川村インターナショナル2009年10月13日 07時30分
  • このエントリーをはてなブックマークに追加

 どうしてまたコンピュータがクラッシュしたのかと不思議に思ってはいないだろうか。Googleの実環境での研究によれば、それはメモリが原因かもしれないという。この研究では、メモリのエラー率が、これまでの研究で示されていたよりも高いことが分かった。

 Googleは、同社のデータセンターにある膨大な数のコンピュータを使って、それらのマシンの実際の稼働状況についての実環境データを大量に収集することができる。それがまさに、エラー率が驚くほど高いことを明らかにした研究論文のために、同社が行ったことだ。

 トロント大学教授Bianca Schroeder氏と、GoogleのEduardo Pinheiro氏ならびにWolf-Dietrich Weber氏の共著である同研究論文によれば、「メモリエラーの発生回数や、さまざまなDIMMにおけるエラー率の範囲が、以前報告されていたよりもずっと高いことが分かった。メモリエラーは、珍しいことではない」という。

 では、エラーはどれだけ発生するのだろうか。平均すると、Googleのサーバの3台に1台ほどで、1年当たり1回の訂正可能なメモリエラーが発生し、100台に1台で1回の訂正不可能なエラーが発生する。訂正不可能なエラーは通常、クラッシュを引き起こす。

年間4000回のエラー

 これは高い割合には思えないかもしれない。しかし、メモリモジュールでは1つ当たり1年間で平均4000回近い訂正可能なエラーが発生すること、そしてGoogleのサーバでは一般的なPCと違ってエラー訂正符号(Error Correction Code:ECC)を使っているため、そうした問題のほとんどが小さいうちに摘み取られていることを念頭に置く必要がある。したがって、Googleのマシンで発生する訂正可能なエラーは、一般ユーザーのコンピュータでは訂正不可能なエラーになる可能性が高いと、Enbisoneering GroupのアナリストPeter Glaskowsky氏(米CNETブログネットワークのメンバーでもある)は言う。

 ECCを使用すると、1を格納すべきだったメモリセルが0を格納してしまった場合、あるいはその逆の場合を検出できる。またGoogleは、「Chipkill」と呼ばれる、より高度なエラー訂正テクノロジも使用していると、同論文には書かれている。この研究では、Googleのサーバの大半を測定して、ほぼ2年半にわたってデータを収集しており、そのような規模の研究は初めてだという。

最近1カ月以内に訂正可能なエラーが発生したメモリモジュールでは、訂正されないメモリエラーの確率が非常に高く、場合によっては431倍になる。 最近1カ月以内に訂正可能なエラーが発生したメモリモジュールでは、訂正されないメモリエラーの確率が非常に高く、場合によっては431倍になる。
提供:Bianca Schroeder, Eduardo Pinheiro, and Wolf-Dietrich Weber
  • このエントリーをはてなブックマークに追加