久々にサイトのトラブルでドキドキしました^^;
コトの始まりは、今朝。
サーバ監視アプリXymonからの
2010/12/13 6:42 『Hobbit [723660] ***:http CRITICAL (RED)』
red Fri Dec 3 06:42:50 2010: DNS error ; DNS error
&red http://***/ – DNS error
Seconds: 0.00
というメールに続き、監視サービス「pingdom」からも
『2010/12/13 6:53 Monitor Is Down: ***』
The monitor *** is currently down.Alert Details: No Response From The Website (The server that the website is hosted on can be down)
Uptime Robot will inform you when it is back up.
という内容のメールが届きました。。。
Xymonの”DNS error”というメッセージを初めて見たのでそれが気になりつつ、まずiPhoneでサイトにアクセスを試みるも、やはり表示されません。
そして、影響範囲を把握するために同一サーバ上の別サイトなどの状況も確認してみます。
「きっと全滅なんだろうなぁ・・・」と思いきや、あれ?アクセスできてるじゃないですか!
同じサーバで動いてるのに、何事も無く元気に稼動してます。
詳細を確認するため、目の前の事務所に急行して、とりあえず該当サーバにターミナルでログイン。
各サービスの稼働状況を確認するも、やっぱりhttpdも含め皆さん真面目に働いてます。
そこで、Xymonが言う「DNS Error」が気になったのでnslookup してみると、IPアドレスが戻ってこない。。
サブドメインのサイトは正常にIPアドレスが戻ってきます。。。
この時点で、
・同一サーバで動く違うサブドメインのサイトは動いてるし
・自分のサーバの問題じゃ無さそう
・とすると、やはりDNSの問題?
というところまではたどり着きました。
でも、DNSがダメかもって思っても、対処方法がわかりません。
という訳で、インフラ周りをお願いしている専門家と、念のためAmazonAWSのサポセンにも状況報告と問い合わせのメールしました。
どちらからも数分後(驚)にはレスがあり、「DNSの問題でしょ」という回答。流石…orz
そうこうするうちに、TwitterのTLに同様のつぶやきを発見。
AM9時過ぎには復旧し始めました。
後から追記された「こちら」を見ると、
ホスト名がない場合の「Aレコード」が上書きされてしまう症状が発生しておりました。
なるほど、他のサブドメインは正常に動いてたのはこれが原因なんですね。
ということで、今回の教訓。
・問題の切り分け手順にDNSトラブルのケースも追加しよう
・EC2のトラブルならバックアップからインスタンス起動してリカバリすれば済むけど、DNS障害では手を出せないね
・DNSは信頼できるサービスで管理しよう
・Xymonを信用しよう
以上!
最大46万件に影響 バリュードメインでDNS障害 2時間半にわたり – ITmedia News
コメントを残す