NTTドコモは、6月6日8時27分から21時36分までの間に発生した通信障害の詳しい経緯を発表した。この通信障害により、関東甲信越地域の10都県で契約した172万件の顧客の携帯端末で、13時間にわたり音声通信やパケット通信がつながりにくい状況が続いた。
ドコモでは今回の通信障害は、サービス制御装置の一部パッケージ(ハードウェア)の故障が原因だと説明している。故障したのは顧客の位置情報などを管理する装置で、通常であれば故障した0系(通常稼働しているパッケージ)のパッケージだけが1系(バックアッ プ)のパッケージに切り替わり運用を継続するが、ソフトウェアアップグレード中にユニットが故障したことから、装置全体が1系のシステムに切り替わった。
システムを切り替える際には、位置登録を行う信号が増加し大きな負荷がかかる。このシステム切替が位置登録の多い時間帯と重なり、位置登録信号が急増したためソフトウェアの過負荷耐性の不足により処理能力が低下し、トラフィックを処理できないふくそう状態となった。このためドコモでは、サービス制御装置の負荷を下げるために9時26分頃から通信規制を実施した。
12時46分にパッケージの修復が終わり、1系から0系へとシステムを切り替えた。負荷状況を見ながら徐々に通信規制を解除し、システムも安定したことから18時52分に通常の運用状態に移行したが、切替ソフトウェアの不具合により再びふくそう状態に陥った。再度通信規制を実施し、システム安定化を図ったことで21時36分にシステムが安定したという。
ドコモでは通信障害の再発を防止するため、設計値以上の信号を受けた場合でもふくそう状態にならないように、ソフトウェアの過負荷耐性を強化したほか、通常の運用状態に移行した際に、システム切替抑止中の故障履歴を参照する不具合を修正したとしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」