2014年10月21日

平成26年(2014年)秋 ITサービスマネージャ試験(東京医療保険大学)

かれこれ4回目のSM試験となった。
SCやNWでも3回目で合格したことを考慮するとだいぶ手間取っている。
どうも成績が安定しない。
午前U、午後T、午後Uでそれぞれ1回ずつ落ちている。
さて今回はどうなるか。

場所は東京医療保険大学(五反田)。初めての場所である。
とにかく暑かった。10分歩いてだいぶ熱がこもっていて、ずっと扇子を使っていた。

【午前U】
20時の解答速報を参考すると、80(20/25)で通過。

午前Uを落とすと、午後にどれだけ書いても採点されないので、
少なくとも午前Uで落ちるわけにはいかない。
勉強時間は行きの電車で30分程度。過去受験した午前Uの過去問をひたすら「暗記」した。

これが功を奏した。8問(問4,6,7,8,9,10,11,20)は類似の問題が出て、見た瞬間に回答がわかった。
その内、4問(特にNo20)は暗記していなかったら間違っていたかもしれない。
直前の暗記は、かなり役に立った。


【午後T】
問1と問2の選択で迷いが出てしまった。数字が多く計算が面倒そうな問1を避けたが、
結果的に問2の設問2で久しぶりに嵌った(時間をかけすぎた)。
納得感のない解答(自信の持てない解答)が多かった。
ちょっと午後T通過しそうにない。


〔問2 キャパシティ管理〕
設問1
(1)(何を書いたか覚えていない)
(2)オンラインサイト側のデータ送信を昼休み以外の時間帯に実施してもらう
設問2
ディスク装置の容量が2.5G追加になるので、ディスク装置を1台追加する
設問3
(1)
(a)2014年6月の需要予測が上振れした場合、ディスク増設がサービス開始までに間に合わないリスク
(b)需要予測を前倒しする
(2)プログラム配布の集中により既存サービスが利用できなくなるリスク

〔問3 データセンターの運用〕
設問1
(1)本件は優先度”低”のため8時間以内の復旧が必要だが、8時間以内に回復依頼をしなかった。
(2)温度基準値よりも下方の基準値を決め、警告メッセージとして出力させる。
設問2
入室受付票と本人の身分証明書を照合する
設問3
(1)変更の承認だけをもって、機器を更新した点。
(2)変更管理の完了後に機器を更新すること


【午後U】
ほんの2分ほど悩んで問2でイメージがわいたので、問2を選択。
最近仕事で発生したIPアドレスの重複がわかりやすいと思った。

失敗したのは「私の立場」。基盤インフラのサブリーダーという設定にしたが、
おそらく運用オペレータの現場責任者という立ち位置にした方がスムーズだった。

また、設問ウで止まってしまった。やはり、結論だけで600字は厳しい。

根本原因と影響拡大した原因の二つに分けた方がよかった。

「システム」と「サービス」をはき違えた箇所があった。あくまでITサービスが論点。

あえてITスペシャリストなどを登場させて、チーム横断で解決するプロセスをみせた。
再発防止はお決まりのPDCAを意識(定期的な活動)

(骨子)
1.システムの概要
1.1概要
国内有数の金融業のA社。
私はシステム部の金融マーケットの基盤チームのサブリーダー。
チーム内では30システムを管理しているが、自分の担当は5システム。
新人含めて5名体制で、運用保守がメイン。
サービス内容は為替トレーディングで、海外展開もしているため24時間運用。
障害時の目標復旧時間は10分以内という厳しい条件。

1.2影響が拡大した事例
ある週末、若手社員がXシステムの新規サーバにIPアドレスを設定したところ、
ポップアップ画面にエラーが出力し、更新されずに元に戻った。運用監視コンソールには表示されない。
次の瞬間、3システムからほぼ同時に運用オペレータにてエラーを検知した。
その3システムは自身の管理下にあるため、運用オペレータから私宛に電話があった。
しかし、Xシステムと3システムの関連性はないと判断し、その旨を運用オペレータに返答した。
そのうちに、3システムのうち1台のサーバがダウンし、そのサーバを利用していた
別のシステムも次々にサービスダウンして、最終的には10システムの業務サービスに影響が拡大した。

2.再発防止策
2.1業務への影響が拡大した原因の分析
原因がわからず、私は他部署のネットワークチームに連絡をした。
ネットワークスペシャリストが調査をしたところ、根本原因はIPアドレスの重複によるものと判明。
本事象の復旧には、重複したサーバのシャットダウンが必要だった。
運用オペレータは既存のシャットダウンプロシージャを試みるも、リモートコマンドを受け付けず、失敗。
別途メンテナンス用ネットワーク経由でシャットダウンする必要があったが、プロシージャが存在しない。
メンテナンス用プロシージャは、ハードウェア基盤チームが所管だったが、担当の連絡先がわからず、時間を要した。
最終的には、なんとかハードウェア基盤チームに連絡がつき、対応は完了した。
以上、初動対応の不備が影響拡大の一因といえる。

2.2再発防止策
・IPアドレス一覧の整備(そもそも障害を発生させない対策)
・当該エラー発生時の連絡体制の整備(影響を最小限にくいとめる策)
・メンテナンス用ネットワーク経由のシャットダウンプロシージャのリリース(影響を最小限にくいとめる策)

3.再発防止を確実にするために行った活動
・自分たちで管理せず、IPアドレス一覧をネットワークチームに移管し、常に最新版にメンテする仕組みを作った。
・運用部門や関係部署も参加する障害訓練を実施した。
・障害訓練を単発で終わらせずに、年1回定期的に実施するよう働きかけた。






posted by くるりヘアー at 00:37| Comment(0) | TrackBack(0) | 学習履歴(ITサービスマネージャ) | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス: [必須入力]

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/407468454

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。