KDDIは1月16日、大晦日から年明けに相次いで発生した一連の通信障害に関する説明会を開き、各障害の原因と今後の対策を説明した。
会見に出席したKDDI 新規事業統括本部 新規ビジネス推進本部長の雨宮俊武氏は「この度はお客様にご迷惑をおかけしまして申し訳ございませんでした。電気通信事業者として深く反省し、今後このようなことのないよう再発防止に努めていきます」と謝罪した。
まず、2012年12月31日の午前0時~4時23分まで、iPhone 5などLTE対応端末を利用する一部のユーザーが、データ通信サービスを利用できない、または利用しづらくなる障害が発生した。対象地域は全国で、最大180万人に影響が及んだ。
障害の原因は、LTE端末から瞬間的なアクセス集中が発生したことで、通信量制御の認証をする設備「加入者プロファイルサーバ」がバッファオーバーフローを起こし、セッションを切断。その結果、LTE端末から一斉に再接続要求が発生し、過度なアクセス集中となり新規接続ができない状況となった。
LTE端末がLTE対応エリアでデータ通信サービスを利用する際に、信号は基地局制御装置や信号中継装置、信号制御装置、加入者プロファイルサーバなどを通過する。加入者プロファイルサーバは、アクセス集中対策のためにキューを超過した信号を破棄する機能を搭載している。加入者プロファイルサーバは通常0.1秒程度で応答するが、障害時は瞬間的なアクセス集中によってこの信号破棄機能が働き、信号制御装置への無応答または2秒を超える認証応答が発生した。
信号制御装置は、認証要求から応答まで最大3秒間待受けし、タイマーが3秒間経っても応答がなければセッションを解放する設定となっていた。しかし、信号中継装置が最大2秒しか待受けしない設定となっていたため、信号制御装置が3秒以内に応答しても、信号中継装置が2秒以上だとセッションを解放してしまい、輻輳へとつながった。
これに対しKDDIは、信号制御装置の待受けタイマーを信号中継装置より短い1.2秒に変更してタイマーの不整合を解消。また、加入者プロファイルサーバからの応答がなかったり遅延したりしても、信号制御装置が代理応答することで、信号中継装置のタイマー超過を防ぐ対策を1月14日に実施した。また、1月24日にも加入者プロファイルサーバの増設が完了する予定だという。
1月1日には、au ID認証決済システムにおいて障害が発生。午前0時12分~2時29分と、9時33分~13時33分の2度にわたり、「auスマートパス」などKDDIの約120のサービスと、一般加盟店の約2000のサービスが利用できない、または利用しづらい状況となった。1度目の障害は最大80万人に、2度目の障害は最大150万人に影響を与えた。
KDDIでは、月初に月ごとの「auかんたん決済」の利用限度額のクリア処理を実施しておりアクセスが集中しやすくなっている。そこで2012年11月にデータベース処理能力拡大のためにハードを増強したが、メモリアロケート処理を定義するパラメータ設定に誤りがあったため、大量のオンライン処理をする際にメモリ割当・解放要求がCPUに過剰な負荷を与え、障害につながってしまった。
同社では対策として、復旧時間の短縮に向けた手順の見直しを1月4日に実施したほか、メモリアロケート処理パラメータの設定変更や監視項目の見直しを1月10日に実施したとしている。
1月2日にもLTEの障害が起きた。発生時間は午前0時17分~2時10分までで、こちらも全国のLTE対応端末を利用する一部のユーザーが、データ通信サービスを利用できない状況となり、最大で175万人に影響が出た。
障害のそもそもの原因はアクセス集中ではなく、信号制御装置での装置アラームの誤発報。信号制御装置のソフトウェア不具合によって装置内部の処理異常が発生しアラームが発報されたが、アラーム対応手順書が整備できていないという人為的ミスから、適切な復旧措置を実施できず、信号制御装置に接続されているすべてのLTE端末とのセッションが切断、解放された。その結果、LTE端末から一斉に再接続要求が発生し、過度のアクセス集中が発生する事態となった。
今後の対策として、すでに1月8日にアラーム対応手順書の整備と対応訓練を実施しているほか、1月30日には信号制御装置のソフトウェア改修を実施するとしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」