世の中多くの情シスは、あんがい障害対応の初動を知らない
システム・ITに携わる仕事をしていると絶対に逃げることができない「障害対応」。24時間365日、それはなんの前触れもなくやってきます。
ある程度経験を積むと、なんとなく勘所ができ、肝も据わり、大概のことでは慌てなくなります。しかし、慣れていない人だと不安から、ことごとく初動を間違う。
この慣れていない人が、仕事ができない情シス部門責任者だったり、重要な意思決定者だったりすると最悪。目の前で、どんどん被害が大きくなっていきます。その大きくなった被害の原因が自分だとわかっていないのが、また悩ましい。
さて、障害が発生した場合に、障害解析をするのはその対象システムを開発した人たちが行います。多くはベンダーでしょう。内製をしていたら、その内製部隊が行います。そして、障害解析はだいたいここがフォーカスされ、さまざまなところで分析・研究がされています。
多くの情シスは、障害対応の全体のマネジメントやリードを行うことが多い。場合によっては、1分1秒を争う緊張感が伴うわけで、できるだけうまくいくやり方を採用したいはずです。
ただ、残念ですがうまくいくやり方というのは、状況が千差万別なため定義がしにくい。障害内容・環境・タイミングといった多くの考慮が必要で、「これだけやっとけ」という定義がなかなかしにくい。
しかし、それをやっちゃうとだめよ、被害が大きくなるよと断言できることはあります。やってはダメな初動は、どんな障害発生時でも共通していて、そして明確にあるのです。
やってしまうと被害が絶対に大きくなる初動3選
ここにあげる3つは、心あたりある方多いはず。もしくは、自分では気がついていない人があんがい多いです。
- ひとが言うことを無条件に信じる
- 正確性や慎重になりすぎて、報告が遅くなる
- 気になるところから手当たり次第に調べる
❶ひとが言うことを無条件に信じる
障害が発生すると、さまざまな情報が集まります。関係する人も増えます。よくわからないのに、点数稼ぎのために役員クラスが入ってくると、余計面倒で、いい加減なことにもかかわらず、「役員が言った」というだけで対応せざるを得ないといったことはよくある話。
障害の範囲が広ければ広いほど、影響が大きければ大きいほど、あつまってくるその情報は玉石混淆。やってはいけない初動のひとつめは、「ひとが言うことを無条件に信じる」ということ。
「現場でこんなこと、起きてるってよ」という言葉だけを信じて、間違った対応している場面を本当によくみる。
正しくない情報をもとに動き始めることは、「二次被害」を発生させ「時間を浪費」し、そして場合によっては「原因究明を複雑」にします。(その意味で、ほんとThe daysは勉強になる、話も面白いしおすすめ)
通常、人は自分が目で見たこと、聞いたこと、感じたことをそのまま言葉で伝えます。これ自体は否定する必要はない。むしろ教えてくれたことに対して感謝すべきこと。情報を提供してくれた方には必ず「感謝の気持ち」は伝えましょう。
一方で、つぎのことを常に頭に置いておく必要があります。「聞くこと」と「信じること」は別です。
話には尾ひれがついて、大きくなったり歪曲される
障害発生時はいろんなところで混乱が起きてます。お客様に影響がある場合は、その対応で多くの人が余裕がなくピリついている。場合によっては怒号が飛び交う。そんな冷静な状況ではないわけですから、言葉には感情がのってきます。
障害の大きさや影響度を肌で感じるには、その言葉は重要。しかし、障害をどううまく対応するかを考えるためには冷静にならなければならない。
適切な初動とは何かを判断するために、それらの情報は「だれが」「いつ」「何を言ったのか」を記録するのがおすすめです。書き出して文字を見ると、冷静になれるし、状況判断の重要なインプット情報となります。
「入手した情報」と「事実」は別
集まった情報は、誰かが何かを言ったと言う意味では「事実」。しかし、それが本当に発生しているかどうかという意味での事実とは別と考えた方が良い。この状況でやることは二つ。
一つ目は、集まった情報に関してできるだけ何かしらのエビデンスを集める。幸いなことに、システムですから集めるのはそんなに難しくない。エラーメッセージが出たと言うのであれば、その画像。動きがおかしいと言うなら、動画をとってもらっても良い。
二つ目は、その事象が再現するかどうか?もちろん、動作確認する環境に依存する場合もありますが、とにかく再現するかどうかを確認。それによって、勘違いや思い込みを随分と減らせる。
その情報が、発生した情報と直接関係あるとは限らない
障害が長期化してくると起きがちなこと。「もしかしてこれも関係あるかも?」とより一層いろんな情報が集まり始めます。それは、多くの場合「善意」と「焦り」から行われる。
もちろん場合によっては、二次被害などが発生している可能性もあります。障害対応に慣れていないと、押しつぶされそうになります。見えないものは恐怖。
❷正確性や慎重になりすぎて、報告が遅くなる
昔からどこの世界でも言われていること。初動としての基本。それは「悪い情報ほど早く」です。多くの情シスはこれに気がついていないことが多い。理由の多くはだいたいこんな感じ。
- 影響が大きいとは思わなかった
- 自分たちでなんとかできると思っていた
- 正確な情報を報告しなければならないと思っていた
やることはすべて逆です。
ただし、一つ注意点があります。曖昧な状態だからこそ報告をあげるときに絶対にやってはいけないこと。それは、わからないことを「わかったこと」として報告をあげる。焦りや不安から、小さい嘘をついてしまう。
わからないものはわからないでOK。「速報です」「事実確認中です」「調査中です」と言い切る勇気です。
影響が大きいとは思わなかった
そもそも、障害なんです。影響が明確にわからない時点では、だからこそ最悪の事態を考えて関係者に報告。影響が徐々に見えてくると、実は営業部門が動かなければならない事態だったり、場合によっては経営判断が必要といったケースはゼロではない。
どうせ色々言われるわけです。言われるなら早めの方がいい。報告が遅いと、もっといろいろと言われます。
自分たちでなんとかできると思っていた
障害発生時に、原因が明らで見通しがたっている場合はその考えでいいかもしれません。ただ、それでも報告はしたい。障害対応は、想定外が発生することが多いです。
障害でおかしくなったデータ復旧や、オペレーションのやり直し。仮にシステムはなおっても、何かしら業務影響はあるはず。「自分たちでなんとかできる」という考えは、あくまでシステムだけの話です。
エンドユーザーのことまで考えると、自分たちでなんとかできると思っていたと言う考えはとても危ない。もし、そんなシステムがあるとしたら、そのタイミングで業務が行われていないラッキーなタイミングか、もしくは使われていない、実は不要だったシステムです。
正確な情報を報告しなければならないと思っていた
これ、とにかく多い。気持ちは痛いほどわかります。曖昧な情報をあげると「なんでそんな中途半端な情報もってくるんだ」とか「こんな報告している暇あったら、ちゃんと調べろよ」とか言われます。言う人は必ず言う。
実はこれを乗り切るコツはあります。それは、なぜ中途半端な情報にもかかわらず報告をしているのか、それをそのまま伝えるのです。システムだけをみていたら、この発想には至らない。
何をするかと言うと、報告の冒頭に以下を伝えると言うことです。
- まだ「事実確認中」「調査中」であること
- 場合によっては業務やお客様に影響が発生する可能性があること
- 状況を考慮した結果、速報として障害が発生していることをまずは報告したい
それでも文句言う人は言います。でも冷静になってみてください。そういった人は、普段から何をやっても文句を言う人なはず。気にすることないです。
❸気になるところから手当たり次第に調べる
これも気持ちはわかります。でも、急がば回れ。業務やシステムの全体像をちゃんと押さえている方であれば、そのやり方は「経験」からくるものですので有効です。でも、多くの情シスで働く人は、そこまで全体像が見えていないことが多い。
このやり方の全部が悪いとは言わないです。気になるところからちょっと見てみるくらいならOKです。
問題があるとすれば、十分に考えられた調査方法ではないため、中途半端な調査になっている可能性があると言うこと。さらには、ちょっと見た程度なので、ちゃんと調査のログが残っていないことが多い。
にもかかわらず、「ここはパッと見ましたが、問題なさそうです。」という情報が真実として扱われてしまい、以降の調査から外れてしまう。これが非常にまずい。あとあとになって、実はその「パッとみて影響ないと判断した箇所」が原因だった・・・みたいな話はよくある。
障害対応の基本は、問題がない箇所を一つ一つ洗い出していき、調査対象を徐々に小さくしていくと言うこと。そのためには、何をどう調べて「問題ない」と判断するかが重要なのです。
障害対応は逃げたくなるが、逃げちゃダメだ
障害対応はつらい、つらいです。いろんな人からいろんなことを言われる。とても大きい不安とプレッシャーが襲いかかります。
そんな時、少しでも周りを安心させたい、自分もこの状況から逃れたいといった感覚にから、はっきりと原因がわかっていないのに原因だと説明したり、調査が進んでいないのに進んでいるかの説明をしたりしてしまう場合があります。
断言します。嘘はダメ。真実を伝えましょう。その行為は、あなたがあなた自身の判断で、障害対応をより複雑にして、混乱のもとになっている。
焦らずにとにかく落ち着く。だいたい、あなたが焦っても何も解決しない。ちなみに筆者は大きな障害が発生した時、自分に対して「このシステムが止まったからといって、ひとが死ぬことはない」と言い聞かせるようにしています。これ、案外効果あり。(人の命に関わるシステムの場合を除きますよ、もちろん)
ひとつひとつ、地道にやるしかないのです。でも、ちゃんとやれば必ず解決に至ります。なぜなら、結局システムは人が作ったものですから。
<情シスおさえどころ>
自分たちでその場はなんとかできた。でも、あとあとになって何かしらデータがおかしくなっていたと言うことが判明したという場面を想像してください。
それは、「実は、あの時に障害が発生していて対応してました」という後出しの報告になってしまいます。これは、見方によっては「隠蔽」と取られる可能性ある。その気が無くても、そう見られるのは不本意だし、できるだけ避けるべきです。