KDDI、相次いだLTE通信障害の原因はソフトウェアバグ

藤井涼 (編集部)2013年06月10日 17時49分
  • このエントリーをはてなブックマークに追加

 KDDIは6月10日、4月末以降に立て続けに起こしたLTE通信障害に関する説明会を開催した。同日はKDDI代表取締役社長の田中孝司氏が登壇し、一連の通信障害を謝罪するとともに、それぞれの障害の原因や今後の対策などを自らの口で語った。

  • 一連のLTE障害を謝罪する田中社長

 同社は4月27日、5月29日、5月30日に、東京都、神奈川県、山梨県の一部で、au 4G LTE対応機種(iOS/Android)のデータ通信サービスが利用できない、または利用しづらい状況となる障害を起こした。また5月29日はデータ通信に加えて音声通信サービスも利用できなかった。

 田中氏は、4月16~19日に全国で発生したメール障害や4月27日のLTE通信障害を受け、4月30日の決算会見で再発防止を約束したばかり。しかし、そのそのわずか1カ月後に再び障害を起こした。「経営の最重要課題として取り組んだ矢先でのLTE通信障害ということで大変申し訳なく思っている」(田中氏)。

 KDDIでは、一連の通信障害の対象者に通信料金の3日分に相当する700円を返金するとしている。対象人数は最大約84万人と見込んでいる。また、約300億円の設備投資を実施する予定だ。

相次ぐ通信障害の原因

 相次いで発生した通信障害は、LTE基地局制御装置(MME)のソフトウェアバグに起因するものだという。MMEとは、LTE基地局の接続管理や各LTE基地局エリア内にあるLTE端末(スマートフォン、タブレット)の移動管理を制御する装置のことだ。

  • 田中社長が自ら説明

 最初に障害が発生したのは4月27日の16時1分~22時18分(6時間17分)。MMEのフラグメンテーション処理におけるリセットバグによって、MMEの片系がダウン。さらにリカバリー処理のバグを誘発したことで、両系ともにダウンした。この障害によって最大約59万人に影響が出た。

 続いて障害が起きたのは5月29日の午前4時30分~23時13分(18時間43分)。4月27日に発生した障害の原因を解消をする修正ファイルをMME片系に投入したところハードウェア障害が発生。切り戻すことにしたが、片系の処理を他系に引き継ぐ処理において輻輳が発生し、ここでもリカバリー処理バグを誘発したことで両系ともにダウンした。この際は最大約56万人に影響が出た。

 また、5月29日はこのMME障害によって、移動機がLTE網から3G網へとハンドダウンし、加入者情報管理システム(HSS)が大量の接続通知を受信したことで、MMEとHSS間で輻輳が発生。加入者管理ノード(SLF)において、HSS向け接続が正常に行われなかったために、一部の顧客の音声発着信やSMSの利用に影響が出た。

  • 4月27日のデータ通信障害の障害

  • 5月29日のデータ通信障害の障害

  • 5月30日のデータ通信障害の障害

 さらにその翌日となる5月30日にも13時4分~23時2分(9時間58分)までLTEデータ通信障害を起こした。4月27日の障害原因を解決する修正ファイルの再投入に向けた準備中に、MME片系の特定のプロセスが過負荷になりダウン。他系に引き継ぐ処理において輻輳が発生し、同じくリカバリー処理バグを誘発し両系がダウンした。この障害で最大約64万人に影響が出た。

再発防止に向けて300億円の設備投資へ

 今後の対策として、KDDIは田中氏を本部長としたLTE基盤強化対策本部を新設。“モバイルトラフィックには予想外のことが起こる”ことを前提にして、ソフトウェアやハードウェア、作業手順などを見直すことで「スマートフォン/4G時代に見合ったフェールセーフな体制を確立する」(田中氏)としている。

  • LTE基盤強化対策本部を新設

 さらに、5月15日に決定した230億円の設備投資額に70億円を増額することも明らかにした。現在全国に19台設置されているMMEを8月末までに50台、9月末までに58台に増設するほか、LTE監視要員を20人から42人へ増員する。

 「全社をあげて再発防止を徹底するとともに、右肩上がりに増えていくデータ通信量に対応し、機能安全を確立することで、顧客に安心してご利用いただける通信ネットーワークを提供していきたい」(田中氏)。

  • このエントリーをはてなブックマークに追加