KDDIは4月25日、4月16~19日に3度にわたり発生したau版iPhone、iPadのメール障害に関して原因を説明するとともに今後の対策を発表した。会見に臨んだKDDI取締役執行役員専務 技術統括本部長の嶋谷吉治氏は、まず「この度はメールリアルタイム送受信システムの障害を発生させた上、復旧に長時間を要してしまい顧客に多大なるご迷惑をおかけしたことを深くお詫び申し上げる」と謝罪した。
なお、KDDIは2012年12月31日~2013年1月2日にかけて相次いで通信障害を起こしている。
一連の障害は、新機能の提供を目的としたEメール送受信システムのバージョンアップ作業時に発生した。サービスが停止しないように、現行設備と新バージョンの設備を事前に用意し、メールボックスサーバや中継サーバなどの接続替えによって、バージョンアップを実施する予定だった。なお、障害はiOS端末のみで発生しているが「KDDIのリアルタイム送受信システムの問題でアップルとは関係ない」(嶋谷氏)としている。
第1の障害
最初に障害が発生したのは4月16日の午前0時35分~1時41分(1時間6分)。Eメールリアルタイム受信設定をしていた端末で、メール送受信サービスが利用できなくなった。影響エリアは全国で、対象人数は最大200人。
バージョンアップ作業中に現行プロキシサーバで認証エラーが発生し、一部の顧客のメールサービスが利用できない状況が発生。調査の結果、手順書ミスによるコマンドの誤りによって、現行のユーザー認証サーバ(レプリカ)が新ユーザー認証サーバ(マスタ)と誤って接続され、ユーザー情報のデータが一部欠損。その結果、ユーザー情報が不一致となった。
これを受け、KDDIは正常な新ユーザー認証サーバに切り替える作業を実施し、現行プロキシサーバなどの参照先を新たな認証サーバに切り替えて認証エラーを解消した。同社では、4月末までに手順書のチェックやリハーサルプロセスの総点検、事前検証内容の見直しなどを実施し、5月末には社内の全システムに反映するとしている。
第2の障害
続いて4月16日8時8分~13時29分(5時間21分)に、Eメールリアルタイム受信設定をしていた端末でメール送受信サービスが利用できなくなった。影響エリアは全国で、対象人数は最大288万人。
第1の障害のエラーを解消し作業を続行したが、新たなプロキシサーバへの切り替え途中でタイムアウトエラーが発生。サービス自体に影響はなかったが、予期しないエラーだったため現行設備へと戻すことを決めた。しかし、切り戻し作業中に新ユーザー認証サーバ(レプリカ)の片系がハードウェア障害でダウン。残っていた片系も高負荷によってダウンし、メールの送受信が不可能になった。
その後、現行のユーザー認証サーバへ接続変更し、そのためにメールボックスサーバを再起動した。KDDIではすでに、両系障害が起きた際に迅速に接続変更するためのユーザー認証サーバ切り替えツールの改善や、二重障害発生時の復旧手順を確立。また5月末までにハードウェアの故障原因を分析し、対策するとしている。
第3の障害
3度目に発生した障害は、4月16日13時29分~4月19日2時54分(2日13時間25分)と長期間にわたるものだった。Eメールリアルタイム受信設定をしていた端末で、メール送受信サービスが利用しづらくなったり、連絡先やカレンダー情報が表示されなくなったりする事象で、全国の最大127万人に影響がでた。
2度目のメールボックスサーバの再起動は完了したが、再起動手順の考慮不足や中継サーバに溜まった受信メールによって、62台中24台のサーバの高負荷状態が継続。さらに端末からのアクセスも急増したことで、メールを送受信しづらい状況になった。その後、メールボックスサーバへの流量のコントロールなどによって高負荷状態を解消した。
連絡先やカレンダーなどの情報が一時的に表示されなくなる事象については、端末とサーバ間で同期ができなくなったことが原因で、障害が解消され同期が成立した時点で再表示されているという。ただし、2012年6月27日以前に作成された連絡先情報をサーバ側で保管するサービスを提供していないため、同期された場合には2012年6月27日以前の連絡先情報が再表示されないという。
KDDIでは、5月末までにディスクの処理能力を考慮した早期復帰手順の見直しや、メールボックス単位での流量調整を可能にするツールの導入、社内システムのディスク処理能力の点検を実施。また、8月末までに二重障害にも耐えられるようメールサーバ、ストレージを増強するとしている。
「作業実施に関するミスを無くし、周辺設備を含めたシステム全体の事前検証を徹底するとともに、障害が発生した際の復旧を迅速化し、顧客に安心して弊社の通信サービスを利用してもらえるよう全力で取り組んでいく」(嶋谷氏)
同社では、一連の障害の状況を随時総務省に報告しており、1カ月以内に最終報告を提出するとしている。また、障害への対策によって3億円の設備投資を予定しているという。今回の障害は設備や人的ミスに起因するもので、スマートフォンが普及したことによるトラフィックの増加とは関係ないとも付け加えた。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?