かころぐ

とある万屋(何でもエンジニア)の思ったこと。

トラブル☆しゅーたーず#05 ~過去からの贈り物~

Summary

 

 

 

 

 トラブル☆しゅーたーず#05 ~過去からの贈り物~ に参加しました。

トラしゅ参加は4回目ですがこの勉強会がある朝は毎度毎度、

リアルトラブル対応してから参加するジンクス発動しました。

(5回中5回とも発動している気がするのは気のせいです。)

Linuxのはあまりわからないのでいつもドキュメント係になっている気がしますが

 

 

また、イベントを開催してくださった運営の皆様、そして会場だけでなくニフティクラウドのサービスも提供してくださったニフティさん、本当にありがとうございました。

 

あなたはとあるweb系システムインテグレータ TORAshu に務める社員です。

立場としては、もうすぐリーダクラス?そろそろ一人ではなくチームで協力して物事に立ち向かう立場になりつつあります。最近ではとあるお客様のサイトでいろいろありましたが、それを糧にいろいろなことに立ち向かえるようになってきた実感があるような無いような・・・

 

詳細はこちら

 

Questions

 

 

 

 

 

 

ニフティクラウド上に乗っているWeb/DBサーバ・Batchサーバ各一台構成

・基盤(ニフティクラウド側)で障害が発生したらしく昨夜再起動したらしい。

・Webアクセスがおかしいので直して欲しい

 →買い物かごが使えない(決済ができない)

 →画像が表示されない

・16時からテレビに取り上げられるからそれまでに直して欲しい

 →何百万の売り上げにかかわるそうです

 →ちなみに言われた時間は14時

・あ、あとアクセス数は数えておいてね。今まで調べていなかったから。

 

調べてみると、

・Web/DBサーバにssh接続できない

・Console接続できるけどログインできません。

(でも、サービスは微妙に使えるという判断に迷う状態)

 

 

 

 

 

Result

 

 

 

結局、16時どころか18時の報告会の際にも事象は解決せず。

まぁ、止む得ないですね。

 

私はLinuxは概要しかわからないので、わーわー言うだけメンバーに作業をお願いする状態は今回も変わりませんでした。 

技術が無い以上、チームをまとめる役に

 

良かった点

 

・予算はどんぶり勘定である程度貰っておく

→都度都度お客様に許可を貰うのはしんどいのである程度裁量を貰う

 

・早い段階で障害サーバのコピーインスタンスを取っていたので少しは余裕ができた。段取り悪かったけどね。

→間違って壊しても、コピーサーバを再度コピーすれば良い。

→→じっくり障害対応する際は便利な機能ですよね。

 

・報告書を書くときは時間を決めて全員で取りかかる

→エンジニアはドキュメントよりも障害復旧を優先しがちで、成果物がどっちつかずの結果になることが多い

 

 

 

 

以下反省点

・時間が無い場合は、さっさとお客さんに材料与えて判断してもらう

→お題にリブートして良いと書いてあったのを見逃していて40分ロス

→お客様に判断しないといけないことをチーム内で論議しても仕方が無い。

 

・サービスが中途半端な状態だったのでWeb/DBサーバにアクセスさせたくなかった。そのため、Sorryサーバの構築しましたが、DNSがうまく流せなかったので、LB噛ましてのSorry機能を使用しました。

が、仕様を理解していなかったのでうまくSorry表示されなかった。

→当然ダウン時しかSorryでないよね。

Linux側のICMPを切ってしまえば(iptables で Drop)よかった。

→→LBのHealthcheckをサーバ側がDropしてしまえばDownしていると勘違いします。

※但し、IPv6の場合下手に切ることができないけど。

 

・LBでSorryに流した場合はLBのログも確認する。

→Sorryで流していた時にDos攻撃受けたみたいですが全く気がつきませんでした。

 

・予想外のリブート・ログが残らない作業はパニックを起こしやすい

→15時30分のrebootで完全にパニック。

→とりあえず、crondを止めてしまいましたがログは確認していないです。

→→答え合わせで思い出しましたがATコマンドはログ残らないよね

→→運用ポリシーでATコマンド使用禁止の理由が今更理解した。

 

・現場をまとめる人もある程度は技術は知らないと変な指示をだす。

 

・Teratermのログの取り忘れ

→これは致命的。山○君を責められないね。

 

・お客様の立場を顧みない行動が多かった。

→一時報告を15時30分・16時迄に復旧と言われていたのに「遅くなります」のメールなしにぶっちぎり。

→→タイムキーパーが不在でメールを定期的に確認するべきでした。

 

・復旧できていないのに、復旧方針を出さないのに改善策を出すの?

→これは確かにおかしいよね。

 

 

・状況把握ができず何処に最新の情報があるか把握ができなかった

→chatworksがあったのでだいぶ助かりましたがそれでも情報が錯綜していた。

 

Improvement 

 

・お客様・チームメンバとの情報共有

・技術の習得と段取り