ネットワークのループによる障害
契約先の病院様でのこと。後ろの席の職員の方から、電子カルテの画面が開かない、と質問が。
その時点では電子カルテ以外のシステムにはアクセスできていて、画面が開くのに時間がかかっている感じだったので、パソコン固有の問題かなーと思いながら、とりあえず再起動してみましょうか、と再起動。ふと気が付くと周りの人からもエラーが出ているという声が聞こえてきたので、自分のPCを確認すると接続できない!
それから1日、障害の原因探しでした。関連しそうなスイッチの再起動や、ケーブルの差し込み直しをしていると、回復したりして、どの対策も最初はいいけれどしばらくすると通信ができなくなる。ケーブルの断線も疑って、予備のケーブルに挿し直したりして問題解決と思ったら、2時間ぐらいでまた再発!
結果的には、ネットワークでループが起きて、L3スイッチのループガードが動作して該当ポートのみがリンクダウン。数分後にループガードが解除されるという動作を繰り返していたようだった。つまり、対応作業をして数分過ぎると回復してしまうことで対策の効果があったのかな?を繰り返していたと推測される。
以前に、構築環境でループが起こって、こんなことが起きたら原因の特定が難しいなーと思っていましたが、初めて実環境で遭遇。幸いループガードのおかげでネットワーク全体の停止は免れたわけですが、ループガードの動作を把握していなかったことも切り分けを難しくしました。
今後に活かしたいと思います。