某企業情報システム部:「NetEyez」によるMicrosoft365サービス障害解析
障害事象
Microsoftサービスが使えないという社員からの知らせを受け、A社情報システム部門にて原因の調査を開始しようとした矢先、マイクロソフト社による障害アナウンスがありました。 各メディアのニュースサイトにも障害情報が掲載され、担当者は社員に対して障害の通知を行いました。当時はMicrosoft365サービスが全般に使用できず、メールが利用できないユーザもいたため、メール通知に加え館内アナウンスも実施しました。 並行してNetEyezを用いて社内のネットワークトラフィックの解析を開始しました。
事象解析
<ステップ1>対象時間のネットワークをパフォーマンス解析でざっくり確認する
図1は、NetEyezのパフォーマンス解析画面で応答時間統計を示した画面です。この画面から以下のことがわかります。
- 障害が発生していた16時頃、サーバ応答時間が大きく増加している
- 同時間帯のネットワークトラフィック(使用率)には目立った変化はない
図1 パフォーマンス解析画面(応答時間統計)
<ステップ2>対象時間を絞って、もう少し詳しく確認する
図2は、さらに時間を絞った画面です。該当時間になにが起こったのかを詳しく見ていきます。
- 応答時間の大きい時間帯15:45-17:15にズームイン
- サーバの平均応答時間が特に大きいアプリケーションは、Microsoft365とTeamsと判明
図2 対象時間のアプリケーション解析
<ステップ3>次に対象時間をアプリケーションの状況から解析する
パフォーマンス解析画面でMicrosoftアプリケーションの状況を確認します。図3はNetEyezのアプリケーションパフォーマンス解析の画面です。
- 同じ時間帯(15:45-17:15)のMicrosoftアプリケーション平均応答時間統計を確認
- Microsoftアプリケーション全般の遅延が増加している
図3 Microsoftアプリケーションパフォーマンス解析
※NetEyezにおけるMirosoftアプリケーション定義について
【Micosoft365】Microsoft Office製品(Word、Excel、PowerPoint ファイル共有など)
【Microsoft】上記Microsoft365以外のサービス、例えばmsn.com、microsoft.com、windows.net、bing.comvisualstudio.com”など。ただしTeamsやOneDriveなど独立して表示されるものは除く。
【Skype Teams、Skype Call】SkypeサービスのどのURLにアクセスしたかにより細分化して表示されているが、基本的にはSkypeサービス全般を指す。
まとめ
障害はサーバ(サービス)側に起因するという解析結果に
NetEyezによる、今回のMicrosoftのサービスの障害時間帯の通信トラフィック解析から、以下の内容が判明しました。
- 障害はサーバ応答時間の増加として観測された。
- 障害発生時間帯においてクライアント応答時間とネットワーク応答時間については目立った変化なし。
⇒問題はサーバ(サービス)側と考えられる。 - 応答時間の遅延とネットワークトラフィック量との相関は確認できなかった。
⇒ネットワークトラフィックに起因するものではない。 - 応答時間遅延はMicrosoftのアプリケーション全般にわたって発生していた。
phone03-3245-1250