ここ最近発生していたサーバ障害まとめ。
昨夜の時点で38.1度。
今朝起きたらそれでも37.5度の熱がありまして。
(本職の)最後の出勤日を見事休むという
まあ管理人らしい「今年の締め」となりました。
「日ごろのおこない」は
こういう肝心な時にあらわれます(おい)
-----
さて。
調子が悪いのは管理人自身だけではなく
ここ数日このサーバの調子もだいぶ悪くなっています。
本日(休んだので)サーバのメンテナンスに
時間を費やすことができました。
発生していた障害とその原因と対策を
まとめて書いておきます。
すべてのメール送信不可能(先週木曜日から)
すいません…今朝ツイッターでご連絡いただくまで
まったく気づきませんでした。
原因は2つ。
1:先日サーバのOSバージョンアップをしたことで
設定ファイルの書き換えが必要になったこと
(書き換えず使ってたら、エラーはきまくってた)
2:プロバイダの送信メール(SMTP)サーバの設定がしれっと変更されていたこと
原因1については
プログラムから送信されるメール(FavoメールとかPOGメールとか)について
メール送信時にエラーとなりつつも送信自体はできていた模様。
原因2については…管理人としてはどうしようもありません。
プロバイダのSMTPサーバへの接続がタイムアウトとなり
うちのメールサーバ上でたくさんのメールが「再送信待ち」になっていました。
これまでプロバイダのSMTPサーバの指定には、IPアドレスを使用していました。
(理由は忘れたけど…たしかサーバ名で設定して送信できなかった記憶が
それはそれでresolvの設定がおかしかったという結論)
んで先週の水曜か木曜あたりから、SMTPサーバのIPが変更されていました。
今回、SMTPサーバの指定をIPからサーバ名に変更することで
問題なく送信されるようになりました。
サーバは正常に動いているのに、強制再起動が発生する
これは25日に書いたネタ「サーバの死活監視ツール」の不具合。
管理人の自作ツールが思いのほか謙虚な動きをしてくれていまして
ちょっとした(ほんの一瞬の)ネットワーク障害とか
(ほんの一瞬)サーバにアクセスできなかった時に
「サーバが止まってる!」と勝手に判断して再起動をかけてしまう事象が発生していました。
そこまで謙虚じゃなくていいのに。
ということで
これまでは「4分おきにチェックして、アクセスできない場合は再起動」としていたのを
「1分おきにチェックして、3回連続アクセスできない場合は再起動」という設定に変更しました。
その後ログを見てみると…
確かにサーバが正常に動いていても、たまーにチェックエラーとなってました。
でも正常に動いていれば、1分後のチェックでは「OK」となるわけです。
(正常に動いているのに3回連続エラーとなることはほぼないかと)
これでしばらく様子を見ます。
サーバ再起動に連動する障害では
サーバ再起動後に、なぜかWebサーバだけが立ち上がらない
サーバ本体(OS)が起動すると、その内部では
メールサーバ、データベースサーバ、Webサーバなどが順番に起動して
外部からのアクセスができるようになります。
んで、どういうタイミングなのか、どういう状況の時なのかわかりませんが
時々Webサーバだけが立ち上がらない事象が発生しています。
これは…だいぶ前から起きている障害。
これがまた厄介で
エラーが表示されるわけでもなく、ログにもなにも記録が残ってません。
毎週木曜日の早朝4時40分に定期的に再起動をしていますが、
その時もWebサーバが立ち上がる時と立ち上がらない時があります。
その違い、その差は…わかりません。
なので、ここでもまたツールをひとつ作成。
Webサーバのプロセスを監視し、見つからない場合は
起動プログラムを強制実行するというもの。
これをcronに登録して、1分おきに実行させるようにしました。
いかなる再起動(panic後の再起動なのか、定期的な再起動なのか)にかかわらず
Webサーバが起動していなければ、遅くても1分後には起動するようになっています。
---
ちなみに今朝も…
おそらく朝8時15分頃に(正常にサーバは動いていたにも関わらず)強制再起動し
しかも再起動後にWebサーバだけが立ち上がらない(Webアクセスができない)状況になっていました。
そして管理人がこれに気づいたのが11時40分頃。
およそ3時間半の間
(サーバは正常に動いていたのに)アクセスできない状態が続いていました。
ご覧の皆様には
ご迷惑をおかけしましたことを深くお詫び申し上げます。
今日書きました対策を講じたことで
おそらく再起動の回数は相当減ると思います。
(これら以外にもサーバのインフラ部分の設定もだいぶ見直しましたので)
とにかく来年は
安定したサーバ稼働を目指したいと思っています。
-----
ということで冒頭にも書いた通り、今日予定外の休みとなったため
土曜日から1月3日までが管理人の正月休みとなりました。
明日は少し部屋の片づけをしないと…。
そして明日、大井競馬場では
地方競馬唯一のG1(グレード1/グループ1)のレースが行われます。
第61回目となる東京大賞典ですね。
「G1予想大会」は
明日の東京大賞典も対象となっていますので
多くの皆様のご投票をお待ちしております。
明日のブログは
午前中にでも「管理人の(たまにしか)当たらないG1予想」を書こうと思います。
今朝起きたらそれでも37.5度の熱がありまして。
(本職の)最後の出勤日を見事休むという
まあ管理人らしい「今年の締め」となりました。
「日ごろのおこない」は
こういう肝心な時にあらわれます(おい)
-----
さて。
調子が悪いのは管理人自身だけではなく
ここ数日このサーバの調子もだいぶ悪くなっています。
本日(休んだので)サーバのメンテナンスに
時間を費やすことができました。
発生していた障害とその原因と対策を
まとめて書いておきます。
すべてのメール送信不可能(先週木曜日から)
すいません…今朝ツイッターでご連絡いただくまで
まったく気づきませんでした。
原因は2つ。
1:先日サーバのOSバージョンアップをしたことで
設定ファイルの書き換えが必要になったこと
(書き換えず使ってたら、エラーはきまくってた)
2:プロバイダの送信メール(SMTP)サーバの設定がしれっと変更されていたこと
原因1については
プログラムから送信されるメール(FavoメールとかPOGメールとか)について
メール送信時にエラーとなりつつも送信自体はできていた模様。
原因2については…管理人としてはどうしようもありません。
プロバイダのSMTPサーバへの接続がタイムアウトとなり
うちのメールサーバ上でたくさんのメールが「再送信待ち」になっていました。
これまでプロバイダのSMTPサーバの指定には、IPアドレスを使用していました。
(理由は忘れたけど…たしかサーバ名で設定して送信できなかった記憶が
それはそれでresolvの設定がおかしかったという結論)
んで先週の水曜か木曜あたりから、SMTPサーバのIPが変更されていました。
今回、SMTPサーバの指定をIPからサーバ名に変更することで
問題なく送信されるようになりました。
サーバは正常に動いているのに、強制再起動が発生する
これは25日に書いたネタ「サーバの死活監視ツール」の不具合。
管理人の自作ツールが思いのほか謙虚な動きをしてくれていまして
ちょっとした(ほんの一瞬の)ネットワーク障害とか
(ほんの一瞬)サーバにアクセスできなかった時に
「サーバが止まってる!」と勝手に判断して再起動をかけてしまう事象が発生していました。
そこまで謙虚じゃなくていいのに。
ということで
これまでは「4分おきにチェックして、アクセスできない場合は再起動」としていたのを
「1分おきにチェックして、3回連続アクセスできない場合は再起動」という設定に変更しました。
その後ログを見てみると…
確かにサーバが正常に動いていても、たまーにチェックエラーとなってました。
でも正常に動いていれば、1分後のチェックでは「OK」となるわけです。
(正常に動いているのに3回連続エラーとなることはほぼないかと)
これでしばらく様子を見ます。
サーバ再起動に連動する障害では
サーバ再起動後に、なぜかWebサーバだけが立ち上がらない
サーバ本体(OS)が起動すると、その内部では
メールサーバ、データベースサーバ、Webサーバなどが順番に起動して
外部からのアクセスができるようになります。
んで、どういうタイミングなのか、どういう状況の時なのかわかりませんが
時々Webサーバだけが立ち上がらない事象が発生しています。
これは…だいぶ前から起きている障害。
これがまた厄介で
エラーが表示されるわけでもなく、ログにもなにも記録が残ってません。
毎週木曜日の早朝4時40分に定期的に再起動をしていますが、
その時もWebサーバが立ち上がる時と立ち上がらない時があります。
その違い、その差は…わかりません。
なので、ここでもまたツールをひとつ作成。
Webサーバのプロセスを監視し、見つからない場合は
起動プログラムを強制実行するというもの。
これをcronに登録して、1分おきに実行させるようにしました。
いかなる再起動(panic後の再起動なのか、定期的な再起動なのか)にかかわらず
Webサーバが起動していなければ、遅くても1分後には起動するようになっています。
---
ちなみに今朝も…
おそらく朝8時15分頃に(正常にサーバは動いていたにも関わらず)強制再起動し
しかも再起動後にWebサーバだけが立ち上がらない(Webアクセスができない)状況になっていました。
そして管理人がこれに気づいたのが11時40分頃。
およそ3時間半の間
(サーバは正常に動いていたのに)アクセスできない状態が続いていました。
ご覧の皆様には
ご迷惑をおかけしましたことを深くお詫び申し上げます。
今日書きました対策を講じたことで
おそらく再起動の回数は相当減ると思います。
(これら以外にもサーバのインフラ部分の設定もだいぶ見直しましたので)
とにかく来年は
安定したサーバ稼働を目指したいと思っています。
-----
ということで冒頭にも書いた通り、今日予定外の休みとなったため
土曜日から1月3日までが管理人の正月休みとなりました。
明日は少し部屋の片づけをしないと…。
そして明日、大井競馬場では
地方競馬唯一のG1(グレード1/グループ1)のレースが行われます。
第61回目となる東京大賞典ですね。
「G1予想大会」は
明日の東京大賞典も対象となっていますので
多くの皆様のご投票をお待ちしております。
明日のブログは
午前中にでも「管理人の(たまにしか)当たらないG1予想」を書こうと思います。
このネタへのコメント:
コメントはありません。