データ吹っ飛んでます!


リビングで横になってノートPCを開いた午後8時半過ぎ、その目に飛び込んできたメールは…

22日土曜日の出来事。

「データが吹っ飛んでますよ!」とか「真っ白ですけど…」といった内容のメールが数十通。

いつもなら、ある程度頻繁にチェックしているサポートメール、昨日は珍しくこの時間までチェックをしてませんでした。

驚いてサイトを開いてみると、トップページのデータ表示部分が全て真っ白に。他のページもまったく表示されてません。

ギャー!!!!

お休みモードだったアタマを一気に覚醒させて、慌てて作業PCの前に向かいました。

PCに向かうまでの頭の中は…

  • WEB側は正常に動作してるっぽいから、問題はDB側?
  • DBの最新バックアップは当日未明時点のものだったな
  • てことは、最悪、DBをリカバリして復旧かな
  • でも、待てよ…?
  • トップやランキングのデータ表示部分はキャッシュ表示なのにそこも表示されてないぞ?
  • …てことは、キャッシュファイルの生成がうまくいかなかったのかなぁ

(この時点で、各サーバのターミナルを開く)

  • まず、TOPコマンドでプロセスの状態を見てみよう
  • httpdはOKだ
  • postmasterもOKだ
  • じゃぁ、DBの中身はどうなんだ?
  • …ちゃんとデータも入ってる。

(自宅の固定IP以外からの接続をメンテナンス告知ページ表示に切り替え)

  • データがあるのに、キャッシュファイルが生成できないってことは…
  • もしや…
  • df
  • あ!
  • used 100%…(ToT)

先日始めたコンテンツとDBの自動バックアップファイルの削除設定ミスが原因でした。

  • 早速、溜まったファイルをがんがんダウンロード
  • キャッシュの再生を試すと・・・問題なく生成された!
  • 価格投稿などの動作が問題ないことを一通り確認
  • ブログにトラブル報告エントリーをアップ
  • サービス再開(午後9:30頃)

作業時間は約1時間弱。その後、サイトの不具合をメールしてくれた数十人に1通ずつ復旧のお知らせを返信しました。

apacheのログを見たところ、異常は午後1時過ぎから。想像するだけでもたくさんの人に迷惑をかけてしまいました。。pingやhttpの接続異常は監視&通知サービスを利用しているので、そのレベルのトラブルであれば即異常に気付くのですが、今回のようなケースの異常検知の仕組を用意してませんでした。今後は、

  • execでサーバのリソースやプロセスの状況を定期的にチェック&ログ保存
  • 別サーバからそれらの更新状況をチェック

といったような検知方法の改善を早速検討したいと思います。

今回のトラブルを糧に、少しでもサービスレベルをあげていきたいと思います!

 

先日痛めた腰も、ようやく違和感が完全に消えました。

写真は『スモークハウス・テラ』@祖師ヶ谷大蔵のウィンナー5種。ローストビーフも絶品。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です