リビングで横になってノートPCを開いた午後8時半過ぎ、その目に飛び込んできたメールは…
22日土曜日の出来事。
「データが吹っ飛んでますよ!」とか「真っ白ですけど…」といった内容のメールが数十通。
いつもなら、ある程度頻繁にチェックしているサポートメール、昨日は珍しくこの時間までチェックをしてませんでした。
驚いてサイトを開いてみると、トップページのデータ表示部分が全て真っ白に。他のページもまったく表示されてません。
ギャー!!!!
お休みモードだったアタマを一気に覚醒させて、慌てて作業PCの前に向かいました。
PCに向かうまでの頭の中は…
- WEB側は正常に動作してるっぽいから、問題はDB側?
- DBの最新バックアップは当日未明時点のものだったな
- てことは、最悪、DBをリカバリして復旧かな
- でも、待てよ…?
- トップやランキングのデータ表示部分はキャッシュ表示なのにそこも表示されてないぞ?
- …てことは、キャッシュファイルの生成がうまくいかなかったのかなぁ
(この時点で、各サーバのターミナルを開く)
- まず、TOPコマンドでプロセスの状態を見てみよう
- httpdはOKだ
- postmasterもOKだ
- じゃぁ、DBの中身はどうなんだ?
- …ちゃんとデータも入ってる。
(自宅の固定IP以外からの接続をメンテナンス告知ページ表示に切り替え)
- データがあるのに、キャッシュファイルが生成できないってことは…
- もしや…
- df
- あ!
- used 100%…(ToT)
先日始めたコンテンツとDBの自動バックアップファイルの削除設定ミスが原因でした。
- 早速、溜まったファイルをがんがんダウンロード
- キャッシュの再生を試すと・・・問題なく生成された!
- 価格投稿などの動作が問題ないことを一通り確認
- ブログにトラブル報告エントリーをアップ
- サービス再開(午後9:30頃)
作業時間は約1時間弱。その後、サイトの不具合をメールしてくれた数十人に1通ずつ復旧のお知らせを返信しました。
apacheのログを見たところ、異常は午後1時過ぎから。想像するだけでもたくさんの人に迷惑をかけてしまいました。。pingやhttpの接続異常は監視&通知サービスを利用しているので、そのレベルのトラブルであれば即異常に気付くのですが、今回のようなケースの異常検知の仕組を用意してませんでした。今後は、
- execでサーバのリソースやプロセスの状況を定期的にチェック&ログ保存
- 別サーバからそれらの更新状況をチェック
といったような検知方法の改善を早速検討したいと思います。
今回のトラブルを糧に、少しでもサービスレベルをあげていきたいと思います!
先日痛めた腰も、ようやく違和感が完全に消えました。
写真は『スモークハウス・テラ』@祖師ヶ谷大蔵のウィンナー5種。ローストビーフも絶品。
コメントを残す