某企業情報システム部:「NetEyez」によるインターネット通信の遅延の原因特定 (その1)
障害事象
A社では年始の休暇明けからインターネットアクセスの遅延が発生していました。
ユーザがインターネット上のwebサイトにアクセスする際に表示や更新に時間を要したり、web会議の際に音声が途切れや画像の乱れがしばしば起こっていました。
A社ネットワーク環境
A社のネットワークではインターネット通信のトラフィックは、本社内に設置されたProxyサーバを経由して、インターネットGWからインターネットに流れています。
オフィス外のリモートユーザはVPNゲートウェイ経由で本社のネットワークに収容されています。(図1)
図1 既存環境へのNetEyezの配置イメージ
Proxyサーバは4台設置され通信内容によってトラフィックが振り分けられています。一般のwebアクセストラフィックはProxy1、Proxy2で処理され、メールやweb会議を含むMicrosoft365トラフィックはProxy3、Proxy4にバイパスされ負荷分散が行われています。インターネットGWの回線速度は100Mbpsで、ユーザ600名のインターネット通信を収容しています。
おりしも新型コロナウィルスの感染拡大による政府からの緊急事態宣言発出にともない、A社では年明けから出社制限を実施し社員のテレワークの促進を行っていました。
原因調査
MRTGツールでインターネットGWのトラフィック統計を確認したところ、下り(インターネットからA社)のトラフィックが帯域上限(100Mbps)に達する時間帯はあるものの、常に輻湊が継続している状態ではありませんでした。(図2)
図2 ある1日のインターネットGWの時間帯別通信量
Proxy1、Proxy2のシステムにてスレッド数の情報を確認したところ、業務時間帯の昼休みを除いた時間帯で上限値である1,500スレッドに達していることが分かりました。(図3)
図3 ある1日のProxy1の時間帯別スレッド数
ネットワークモニタツールNetEyezをサーバスイッチに接続し(図1)、WEBトラフィックのモニタリングを行った結果、Proxy1およびProxy2にトラフィックが大きく偏っていることが確認できました。(図4)
図4 NetEyezによるWEBトラフィックのモニタリング
また、これらのProxyサーバ経由の通信の平均応答時間を確認したところProxy1およびProxy2の応答時間が、Proxy3およびProxy4を大きく上回っていることも確認できました。(図5)
図5 Proxyサーバ経由による通信の平均応答時間
Proxy1およびProxy2にアクセスしているユーザのIPアドレスを確認したところ、VPN経由のリモートユーザが多いことが分かりました。(図6)
また、Proxy3およびProxy4へのアクセスにはリモートユーザは含まれず、オフィス内ユーザからのアクセスのみでした。
図6 NetEyezによるトランザクション絞り込み
ソリューション
原因:事象の発生要因はリモートユーザの急増
今回の事象の発生要因は、リモートユーザの急増によるものでした。
VPN経由で流入するリモートユーザのトラフィックは通信内容にかかわらず、すべてProxy1およびProxy2に送信されていました。そのためこの2台のProxyサーバに負荷が偏りインターネットアクセスの通信遅延を引き起こすことになっていました。
対策:VPNゲートウェイの設定変更
VPNゲートウェイの設定変更を行い、リモートユーザのトラフィックを4台のProxyサーバに分散させることによりProxy1およびProxy2の過負荷状態は解消し、インターネット通信の遅延は改善されました。
phone03-3245-1250