ドコモで障害

2.jpg
昨日17時頃から、ドコモ回線で通信や通話がしにくい状態になった。
少なくともSMSは異常なく届いていたが、通話は確認していない。
通信も正常だった。

ドコモ回線の障害という事で、MVNO各社にも影響が広がった。
MVNOではiijがいち早く障害が発生している事を伝えた。

大規模障害は困る。
零細事業者じゃないんだから、ちゃんとしてよという所だ。
基本的障害は約3時後に解消に向かったが、トラフィック制御の関係か日付が変わる頃まで影響は残ったという。
ドコモによれば、ネットワーク工事の切り戻しに伴う信号量増大によるネットワーク輻輳が原因だという。
ITmediaはロールバックと書いている。
ロールバックというとソフトウエアの世代を戻す的なニュアンスがあるがどうなのだろうか。
ハードウエアに関してはフェイルバックなどと言うのかも知れない。

いずれにしてもロードバランスがうまく取れなくなり、一部のサーバにトラフィックが集中して処理に遅延が出て、それが別のシステムにまで及んでしまうと言う、良くあると言ってはアレだけれど監視不行き届きだ。
自動制御に任せずに人間が対応すれば、負荷の上がったシステムへの接続率を減らすなどが出来る。
現状では全てが自動化されていて、駄目になった所が赤で表示されてみんなで焦る、みたいな感じだろう。

通信会社の場合は障害原因を発表するが、例えば楽天の場合だと全ての障害の原因は「システム障害」とだけ公表する。
まあ、システムが正しく動作しなくなったのだからシステム障害で間違いはない。
これは原因不明の死を心不全と書いていたようなもので、心臓が止まって死んだのだから心不全である。
正しいまは心不全は認められず、心不全に至った原因を書かなければいけない。

楽天などは障害が起きたとしても、その障害が何に起因したものかを把握出来ないのではないだろうか。
障害が起きる→ベンダーに通知する→ベンダーが直す→ベンダーが報告書を上げる→楽天はそれを見ても???となる。

にほんブログ村 観賞魚ブログへ
にほんブログ村

この記事へのコメント