【お詫び】昨夜の落雷の影響で、サーバが停止しました。(初めて3台すべてが飛びました。)
「The Sunday Breeze」は
昨夜22時半過ぎより本日19時ころまで
すべての機能が停止しました。
ご覧の皆様には多大なるご迷惑をおかけしたことを
お詫び申し上げます。
---
まずは「The Sunday Breeze」のサーバ構成のおさらいからどうぞ。
---
昨夜は22時ころから日が変わるくらいまで、激しい雷雨でした。
22時30分過ぎ、明らかに近くに「雷落ちたなぁ」という
「ドーン」というより「パーン」みたいな軽めの大きな音。
管理人はサーバルーム(要は自分の部屋)でテレビを見ていたんですが
テレビ画面が一瞬明るくなるというか、なんて言うんですかね…「アオる」というか
画面が乱れたと同時の大きな音でした。
その時は全く気付かなかったんですが…
今日(仕事だったので)会社に行って
ケータイから自宅のサイトを見ようとしても…つながりません。
リモートでサーバに入ろうとしても…入れません。
困った…サーバ止まってる…。
夕方に帰宅して確認したところ
上のサーバ構成のあるWebサーバ・DBサーバ・バッチサーバの
3台がすべて動いていませんでした。
---
まずはデータベース(DB)サーバ。
22時31分29秒
データベースのデータを保存している外付SSD(USB接続)が
取り外されるログが残っていました。
そしてその1秒後、ディスクが再度接続されたログ。
その後今日の午前3時過ぎ、「強制的にディスクが外されました」的なログ。
おそらく、サーバそのものは生きていたものの
ディスクに異常が発生し(強制アンマウント)、正常に動作できなかった模様。
続いてWebサーバ。
システム系のログは22時30分00秒までは正常に残っていました。
Webのアクセスログは22時30分42秒までは残っていました。
22時35分03秒 再起動したログ。
おそらくDBサーバで異常があったのと同じ時間帯(22時31〜33分頃)に
いきなり電源がプツッと切れた模様。
んで、22時35分に再起動したんだけど…
当然ディスクが動いている最中で電源が落ちたので、ディスクに不具合が発生。
正常に起動しないまま今日の夕方まで放置。
ディスクリカバリを実施し、18時45分頃にはいちおう起動できることを確認。
そしてバッチプログラム用のサーバ。
Windowsのイベントログを確認しましたが、それらしいログが残っていませんでした(最後が18時半)
まあそりゃそうか。いきなり電源落とされたんだから。
んで、タイミングが悪かったのが
ちょうどWindows Updateを実施したばかりで、「再起動待ち」の状況で強制的に電源断になったこと。
皆さんもWindows Updateの後はすぐに再起動してくださいね(自戒の念も込めて)
こうなると、当然正常には起動しません。
電源を入れても、いわゆる「ブルースクリーン」になってしまいました。
接続されているUSB機器を外し、何度か再起動しても起動せず。
一旦電源コンセントを抜いて、再度差しなおして電源を入れたら
いちおう見た目は正常に起動しました。
本当はもう一度念のため再起動したいんですが
怖いのでまだできていないです。
---
ということで
3台のサーバでほぼ同じ時間帯(昨夜22時31分ころ)に異常が発生していることと
管理人が実際に大きな雷の音を聞いた時間が重なることから
今回の障害の原因は、ほぼ雷で間違いないだろう…という結論です。
おそらく雷サージほどではありませんが、軽く電源系にノイズがのったんじゃないかな…と。
家から200メートルないくらいの位置に送電線の鉄塔がたっているので、
たぶんそこに落ちたんじゃないかなぁ…という推測(音の方角的にも)
一部のデータに欠落がある可能性はあるものの、
なにより、ハードウエア(サーバの本体)になんの影響もなかったのは不幸中の幸い。
いちおう現時点では正常に動いているように見えます。
---
で、ここで最後にお知らせです。
念のため、サーバの健全性を再度確認するため
明後日7月23日 午前10時から午後2時くらいまで、サーバのメンテナンスを実施します。
改めてすべてのサーバを再起動したうえで、
サーバOSのチェックと各種データのチェックを実施したいと思います。
停止時間中はすべてのサーバを停止するため、すべての機能が停止します。
ご迷惑をおかけし大変申し訳ありませんが
ご理解いただけますと幸いです。
昨夜22時半過ぎより本日19時ころまで
すべての機能が停止しました。
ご覧の皆様には多大なるご迷惑をおかけしたことを
お詫び申し上げます。
---
まずは「The Sunday Breeze」のサーバ構成のおさらいからどうぞ。
---
昨夜は22時ころから日が変わるくらいまで、激しい雷雨でした。
22時30分過ぎ、明らかに近くに「雷落ちたなぁ」という
「ドーン」というより「パーン」みたいな軽めの大きな音。
管理人はサーバルーム(要は自分の部屋)でテレビを見ていたんですが
テレビ画面が一瞬明るくなるというか、なんて言うんですかね…「アオる」というか
画面が乱れたと同時の大きな音でした。
その時は全く気付かなかったんですが…
今日(仕事だったので)会社に行って
ケータイから自宅のサイトを見ようとしても…つながりません。
リモートでサーバに入ろうとしても…入れません。
困った…サーバ止まってる…。
夕方に帰宅して確認したところ
上のサーバ構成のあるWebサーバ・DBサーバ・バッチサーバの
3台がすべて動いていませんでした。
---
まずはデータベース(DB)サーバ。
22時31分29秒
データベースのデータを保存している外付SSD(USB接続)が
取り外されるログが残っていました。
そしてその1秒後、ディスクが再度接続されたログ。
Jul 20 22:31:29 db kernel: ugen0.3: at usbus0 (disconnected)
Jul 20 22:31:29 db kernel: umass0: at uhub0, port 2, addr 2 (disconnected)
Jul 20 22:31:29 db kernel: da0 at umass-sim0 bus 0 scbus0 target 0 lun 0
Jul 20 22:31:29 db kernel: da0: s/n 0123456789ABCDEF detached
Jul 20 22:31:29 db kernel: (da0:umass-sim0:0:0:0): Periph destroyed
Jul 20 22:31:29 db kernel: umass0: detached
Jul 20 22:31:30 db kernel: usb_msc_auto_quirk: UQ_MSC_NO_GETMAXLUN set for USB mass storage device JMicron USB to ATA/ATAPI Bridge (0x152d:0x0578)
Jul 20 22:31:30 db kernel: usb_msc_auto_quirk: UQ_MSC_NO_PREVENT_ALLOW set for USB mass storage device JMicron USB to ATA/ATAPI Bridge (0x152d:0x0578)
Jul 20 22:31:30 db kernel: ugen0.3: at usbus0
Jul 20 22:31:30 db kernel: umass0 on uhub0
Jul 20 22:31:30 db kernel: umass0: on usbus0
Jul 20 22:31:30 db kernel: umass0: SCSI over Bulk-Only; quirks = 0x8100
Jul 20 22:31:30 db kernel: umass0:0:0: Attached to scbus0
Jul 20 22:31:30 db kernel: da0 at umass-sim0 bus 0 scbus0 target 0 lun 0
Jul 20 22:31:30 db kernel: da0: Fixed Direct Access SPC-4 SCSI device
Jul 20 22:31:29 db kernel: umass0: at uhub0, port 2, addr 2 (disconnected)
Jul 20 22:31:29 db kernel: da0 at umass-sim0 bus 0 scbus0 target 0 lun 0
Jul 20 22:31:29 db kernel: da0:
Jul 20 22:31:29 db kernel: (da0:umass-sim0:0:0:0): Periph destroyed
Jul 20 22:31:29 db kernel: umass0: detached
Jul 20 22:31:30 db kernel: usb_msc_auto_quirk: UQ_MSC_NO_GETMAXLUN set for USB mass storage device JMicron USB to ATA/ATAPI Bridge (0x152d:0x0578)
Jul 20 22:31:30 db kernel: usb_msc_auto_quirk: UQ_MSC_NO_PREVENT_ALLOW set for USB mass storage device JMicron USB to ATA/ATAPI Bridge (0x152d:0x0578)
Jul 20 22:31:30 db kernel: ugen0.3:
Jul 20 22:31:30 db kernel: umass0 on uhub0
Jul 20 22:31:30 db kernel: umass0:
Jul 20 22:31:30 db kernel: umass0: SCSI over Bulk-Only; quirks = 0x8100
Jul 20 22:31:30 db kernel: umass0:0:0: Attached to scbus0
Jul 20 22:31:30 db kernel: da0 at umass-sim0 bus 0 scbus0 target 0 lun 0
Jul 20 22:31:30 db kernel: da0:
その後今日の午前3時過ぎ、「強制的にディスクが外されました」的なログ。
Jul 21 03:02:15 db kernel: UFS: forcibly unmounting /dev/da0p1 from /……
おそらく、サーバそのものは生きていたものの
ディスクに異常が発生し(強制アンマウント)、正常に動作できなかった模様。
続いてWebサーバ。
システム系のログは22時30分00秒までは正常に残っていました。
Webのアクセスログは22時30分42秒までは残っていました。
22時35分03秒 再起動したログ。
Jul 20 22:35:03 sundaybreeze syslogd: kernel boot file is /boot/kernel/kernel
Jul 20 22:35:03 sundaybreeze kernel: ---<<BOOT>>---
Jul 20 22:35:03 sundaybreeze kernel: ---<<BOOT>>---
おそらくDBサーバで異常があったのと同じ時間帯(22時31〜33分頃)に
いきなり電源がプツッと切れた模様。
んで、22時35分に再起動したんだけど…
当然ディスクが動いている最中で電源が落ちたので、ディスクに不具合が発生。
正常に起動しないまま今日の夕方まで放置。
ディスクリカバリを実施し、18時45分頃にはいちおう起動できることを確認。
そしてバッチプログラム用のサーバ。
Windowsのイベントログを確認しましたが、それらしいログが残っていませんでした(最後が18時半)
まあそりゃそうか。いきなり電源落とされたんだから。
んで、タイミングが悪かったのが
ちょうどWindows Updateを実施したばかりで、「再起動待ち」の状況で強制的に電源断になったこと。
皆さんもWindows Updateの後はすぐに再起動してくださいね(自戒の念も込めて)
こうなると、当然正常には起動しません。
電源を入れても、いわゆる「ブルースクリーン」になってしまいました。
接続されているUSB機器を外し、何度か再起動しても起動せず。
一旦電源コンセントを抜いて、再度差しなおして電源を入れたら
いちおう見た目は正常に起動しました。
本当はもう一度念のため再起動したいんですが
怖いのでまだできていないです。
---
ということで
3台のサーバでほぼ同じ時間帯(昨夜22時31分ころ)に異常が発生していることと
管理人が実際に大きな雷の音を聞いた時間が重なることから
今回の障害の原因は、ほぼ雷で間違いないだろう…という結論です。
おそらく雷サージほどではありませんが、軽く電源系にノイズがのったんじゃないかな…と。
家から200メートルないくらいの位置に送電線の鉄塔がたっているので、
たぶんそこに落ちたんじゃないかなぁ…という推測(音の方角的にも)
一部のデータに欠落がある可能性はあるものの、
なにより、ハードウエア(サーバの本体)になんの影響もなかったのは不幸中の幸い。
いちおう現時点では正常に動いているように見えます。
---
で、ここで最後にお知らせです。
念のため、サーバの健全性を再度確認するため
明後日7月23日 午前10時から午後2時くらいまで、サーバのメンテナンスを実施します。
改めてすべてのサーバを再起動したうえで、
サーバOSのチェックと各種データのチェックを実施したいと思います。
停止時間中はすべてのサーバを停止するため、すべての機能が停止します。
ご迷惑をおかけし大変申し訳ありませんが
ご理解いただけますと幸いです。
[コメント読む(0)]