KDDIは7月3日午前11時から、2日未明に発生した大規模な通信障害に関する記者会見を開いた。会見した代表取締役社長の高橋誠氏は、「社会インフラを担う安定的なサービスを提供しなければならない通信事業者として深くお詫びする」と謝罪を表明した。
通信障害は7月2日午前1時35分に発生し、全国で通話ができない、SMSの送受信ができない、データ通信の速度が遅くなる、途切れるなどの状態が3日午後現在まで続いている。3日午前11時時点の同社想定による影響範囲は、最大で約3915万回線。内訳はスマートフォンや携帯電話が約3580万回線、MVNO(仮想移動体通信事業者)が約140万回線、SMS認証を伴うIoTが150万回線、「ホームプラス電話」が45万回線となっている。
特に法人顧客への影響は広範に及んでおり、物流では配達状況の把握やドライバーとの連絡などが不能になり、自動車では一部サービスが利用不可に、気象関連では定点観測データが収集できなくなった。また、金融機関では店舗外の自動現金預払機(ATM)が利用できなくなり、交通機関でも空港スタッフの無線業務連絡ができなくなるなどの事態が起きたとしている。
同社は、障害発生後から対応と復旧の作業を進めており(後述)、西日本エリアでは3日午前11時頃に、東日本エリアでは午後5時半頃に復旧作業の完了を予定。ただし、本格的な再開はネットワーク試験の検証結果によるとして未定という。
同社によると、今回の障害は、東京・多摩ネットワークセンターで行っていたモバイルコアネットワークのコアルーター交換に起因する。通常保守の一環として2日午前1時35分からコアルーターのリプレース作業を行ったところ、新しいコアルーターで原因不明の故障が発生、音声トラフィックの通信経路が変更されず、約15分間に渡ってVoLTE(Voice over LTE)の音声通信が断絶、VoLTE交換機からアラートが発生した。この作業は外部委託ではなくKDDIが実施していたという。
このため午前1時50分に、手順に従って古いコアルーターへの音声トラフィックの切り戻し作業を実施。午前2時に事故対策本部を立ち上げた。しかし、午前2時17分頃から切り戻しに伴うアクセス集中によって、VoLTE交換機で輻輳が発生した。同社は午前2時52分にウェブサイトで障害情報を公開した。
午前3時から午後3時22分の約12時間にわたり、VoLTE交換機の負荷を低減するため、契約者端末からの信号接続要求の流量を制限。VoLTE交換機での呼処理プロセスのリセットと流量制限、無線設備でのデータおよび音声の接続要求の流量制限も実施した。
しかし、午後3時22分から加入者データベース(DB)の処理負荷が増加したという。取締役執行役員専務 技術統括本部長の吉村和幸氏によると、通常は契約者が通話やデータ通信をしていない状況でも端末と通信設備との間で、50分に1回の頻度で通信を行い、その際に位置情報を加入者DBに登録している。加入者DBでの処理後にVoLTE交換機にも位置情報が反映され、これがそろっていることで正常な通信が行われるという。
加入者DBの負荷の高まりは、上述のVoLTE交換機の負荷を軽減する各種作業の影響で、加入者DBへの位置情報の登録処理が不安定になったことが原因という。このため同社は、西日本収容の2台のパケットデータネットワークゲートウェイ(PGW)と東日本収容の2台のPGWを切り離し、加入者DBの負荷低減策を講じた。
さらに午後5時22分には、加入者DBに登録されるデータの不一致が発生した。今度はこれを修正する必要があり、先に切り離した東西日本収容の4台のPGWについてセッションをリセットしてデータの不一致を修正。その後に、別のPGW(計13台)についても切り離しとセッションのリセットを行ったとしている。
記者会見の時点で、障害発生のきっかけと見られるコアルーターの故障原因は調査中という。輻輳の発生による通信障害についても、事前の想定を超える事象が重なったことにより、復旧作業を手順通り実施したにもかかわらず復旧が長期化していると、同社では説明している。
高橋氏によると、今回の障害は同社として過去最大の規模とのこと。影響が長時間に及びながらも2日正午頃まで同社からの状況説明などが少なく、多数の契約者がauショップなどに押しかけるなどの混乱が全国的に発生した。
会見で高橋氏は、障害発生後から状況の把握が難しく復旧の見通しが不透明だったとして、「お客さまに混乱を来たしかねず情報発信に慎重だった」と釈明。総務省から早期復旧の指示を受けたことで、その後は約1時間おきに状況を公表するなど対処を変更した。
また、KDDI会見の直前となる3日午前10時に、金子恭之総務大臣が記者会見で今回の障害を電気通信事業法における重大事故に相当する認識を示した。会見で高橋氏は、金子大臣の会見を見ていたとし、「詳しいことは今後の調査で明らかにしていきたいが、現時点で当社としても重大事故に該当するものととらえている」などと発言した。
携帯電話事業者における直近の大規模障害は、2021年10月にNTTドコモで発生。この時も交換中の通信設備の故障に伴う切り戻し作業がきっかけとなり、IoT機器からサーバーへの位置情報の登録通信が大量に発生して輻輳状態に陥った。その後に総務省と通信各社は、通信障害をもたらす輻輳を回避するための技術的な対策などの検証や作業手順の見直しなどが進められている。
高橋氏は、こうした取り組みに基づいて輻輳対策を整備していたが、今回は想定と備えを超える状況が重なり、輻輳を回避できなかったとした。復旧作業はマニュアル通りに実施したとして、人為ミスの可能性には否定的な見方を示した。
顧客への補償などについては今後の詳しい調査と影響などの特定後になるとしつつ、「個人・法人を問わず真摯(しんし)に丁寧に対応していきたい」などと述べるにとどまった。再発防止策などについては、輻輳の発生防止を目指すとしつつ、今後の詳しい調査と結果を基に検討していくと説明した。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス