最終更新時刻:2008年11月21日(金) 20時26分

6

サーバトラブル事例(1)

公開日時:
2008/07/17 12:12
著者:
さぁや

もう2年ほど前に話になります。

当時、サーバが増え続けていたため、データセンターのあらゆるラックでサーバが動いていました。

ある時、整理をしましょう、ということで、バラバラになっていたサーバを1箇所にまとめる作業を行うことになりました。

うちから、サーバの技術者、ハードウェア担当などがデータセンターに作業に行ったところ、データセンターの担当者から、「この人数で作業やるんですか?」と言われてしまいました。力作業をやらない私を含めて、かなりの少人数だったのです。

データセンターに於ける作業は、できる限り少ない人数でやるべき、と考えています。それには様々な理由がありますが、一つにはセキュリティの点。サーバにはお客様の大切な情報が載っていて、お客様の大切なビジネスのために稼動しています。

そんなサーバに、(自社の社員とは言っても)人を不用意に近づけることは避けたく、接する人数は少なくするべきだと思います。

また、現場で人がたくさん居ると、ちょっとしたミスが起きやすくなります。間違えてケーブルを引っ掛けてしまった、とか部品を誰かが持っていってしまった、など。なまじ人が多いことで、作業を他人に任せがちになってしまい、誰もやってない、なんてこともありえます。(サーバの準備が終わったのに、ラックにレールが付いてない、とか)

データセンター作業は、手馴れていない人が居ると、居るだけ邪魔になります。うちでは、本番稼動のデータセンターには、手馴れていない人は連れて行きません。

データセンターの担当者には、「予定の作業時間に終わらないかもしれません」と言われたのですが、その予想に反して、予定作業時間を大幅に残して、物理移動を終えてしまいました。

さて、次は稼動テストです。(ここから私の出番です)ハードウェアは、ちょっとした環境の変化で、挙動が変わることがあります。

この時、問題が起きました。ある機種のサーバが、OS は boot しようとするものの、boot process の途中で、reset してしまいます。放っておくと、reset、reboot を繰り返す、という現象が起きるのです。

とりあえず残りのサーバをテストして稼動させ、この問題に取り掛かることにしました。

続きは後日

※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。

前後の記事

このエントリーへのコメント

2

>いしたんさん
データセンターの現場で必要とされるのって,専門的なスキルだけではなく,狭いスペースで,いかにうまく動き回れるか,なんですよね.

続きを早く書くようにします.

  さぁや on 2008/07/18

1

わたしもデータセンターに行って作業を行うことがあります。
データセンターやネットワーク系のスキルというのは、実際に経験してみないと身につかないので、苦労してしまいます。
「続きは後日」がすごく気になります!

  いしたん on 2008/07/17

ブログにコメントするにはCNET_IDにログインしてください。

この記事に対するTrackBackのURL: 

CNET_ID

メンバー限定サービスをご利用いただく場合、このページの上部からログイン、またはCNET_ID登録(無料)をしてください。