某企業情報システム部:「NetEyez」によるMicrosoft365サービス障害解析

障害事象

Microsoftサービスが使えないという社員からの知らせを受け、A社情報システム部門にて原因の調査を開始しようとした矢先、マイクロソフト社による障害アナウンスがありました。 各メディアのニュースサイトにも障害情報が掲載され、担当者は社員に対して障害の通知を行いました。

当時はMicrosoft365サービスが全般に使用できず、メールが利用できないユーザもいたため、メール通知に加え館内アナウンスも実施しました。 並行してNetEyezを用いて社内のネットワークトラフィックの解析を開始しました。

事象解析

<ステップ1>対象時間のネットワークをパフォーマンス解析でざっくり確認する

図1は、NetEyezのパフォーマンス解析画面で応答時間統計を示した画面です。この画面から以下のことがわかります。

  • 障害が発生していた16時頃、サーバ応答時間が大きく増加している
  • 同時間帯のネットワークトラフィック(使用率)には目立った変化はない

活用事例(5)NetEyezを用いたMicrosoft365サービス障害解析│ネットワークトラフィック解析ソリューション

図1 パフォーマンス解析画面(応答時間統計)

<ステップ2>対象時間を絞って、もう少し詳しく確認する

図2は、さらに時間を絞った画面です。該当時間になにが起こったのかを詳しく見ていきます。

  • 応答時間の大きい時間帯15:45-17:15にズームイン
  • サーバの平均応答時間が特に大きいアプリケーションは、Microsoft365とTeamsと判明

活用事例(5)NetEyezを用いたMicrosoft365サービス障害解析│ネットワークトラフィック解析ソリューション

図2 対象時間のアプリケーション解析

<ステップ3>次に対象時間をアプリケーションの状況から解析する

パフォーマンス解析画面でMicrosoftアプリケーションの状況を確認します。図3はNetEyezのアプリケーションパフォーマンス解析の画面です。

  • 同じ時間帯(15:45-17:15)のMicrosoftアプリケーション平均応答時間統計を確認
  • Microsoftアプリケーション全般の遅延が増加している

活用事例(5)NetEyezを用いたMicrosoft365サービス障害解析│ネットワークトラフィック解析ソリューション

図3 Microsoftアプリケーションパフォーマンス解析

※NetEyezにおけるMirosoftアプリケーション定義について

【Micosoft365】Microsoft Office製品(Word、Excel、PowerPoint ファイル共有など)
【Microsoft】上記Microsoft365以外のサービス、例えばmsn.com、microsoft.com、windows.net、bing.comvisualstudio.com”など。ただしTeamsやOneDriveなど独立して表示されるものは除く。
【Skype Teams、Skype Call】SkypeサービスのどのURLにアクセスしたかにより細分化して表示されているが、基本的にはSkypeサービス全般を指す。

まとめ

障害はサーバ(サービス)側に起因するという解析結果に

NetEyezによる、今回のMicrosoftのサービスの障害時間帯の通信トラフィック解析から、以下の内容が判明しました。

  • 障害はサーバ応答時間の増加として観測された。
  • 障害発生時間帯においてクライアント応答時間とネットワーク応答時間については目立った変化なし。
     ⇒問題はサーバ(サービス)側と考えられる。
  • 応答時間の遅延とネットワークトラフィック量との相関は確認できなかった。
     ⇒ネットワークトラフィックに起因するものではない。
  • 応答時間遅延はMicrosoftのアプリケーション全般にわたって発生していた。

事例紹介に関するお問い合わせ

phone03-3245-1250