どうしてまたコンピュータがクラッシュしたのかと不思議に思ってはいないだろうか。Googleの実環境での研究によれば、それはメモリが原因かもしれないという。この研究では、メモリのエラー率が、これまでの研究で示されていたよりも高いことが分かった。
Googleは、同社のデータセンターにある膨大な数のコンピュータを使って、それらのマシンの実際の稼働状況についての実環境データを大量に収集することができる。それがまさに、エラー率が驚くほど高いことを明らかにした研究論文のために、同社が行ったことだ。
トロント大学教授Bianca Schroeder氏と、GoogleのEduardo Pinheiro氏ならびにWolf-Dietrich Weber氏の共著である同研究論文によれば、「メモリエラーの発生回数や、さまざまなDIMMにおけるエラー率の範囲が、以前報告されていたよりもずっと高いことが分かった。メモリエラーは、珍しいことではない」という。
では、エラーはどれだけ発生するのだろうか。平均すると、Googleのサーバの3台に1台ほどで、1年当たり1回の訂正可能なメモリエラーが発生し、100台に1台で1回の訂正不可能なエラーが発生する。訂正不可能なエラーは通常、クラッシュを引き起こす。
これは高い割合には思えないかもしれない。しかし、メモリモジュールでは1つ当たり1年間で平均4000回近い訂正可能なエラーが発生すること、そしてGoogleのサーバでは一般的なPCと違ってエラー訂正符号(Error Correction Code:ECC)を使っているため、そうした問題のほとんどが小さいうちに摘み取られていることを念頭に置く必要がある。したがって、Googleのマシンで発生する訂正可能なエラーは、一般ユーザーのコンピュータでは訂正不可能なエラーになる可能性が高いと、Enbisoneering GroupのアナリストPeter Glaskowsky氏(米CNETブログネットワークのメンバーでもある)は言う。
ECCを使用すると、1を格納すべきだったメモリセルが0を格納してしまった場合、あるいはその逆の場合を検出できる。またGoogleは、「Chipkill」と呼ばれる、より高度なエラー訂正テクノロジも使用していると、同論文には書かれている。この研究では、Googleのサーバの大半を測定して、ほぼ2年半にわたってデータを収集しており、そのような規模の研究は初めてだという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」