サーバ停止+激遅のお詫び&言い訳。
「The Sunday Breeze」のトップにも掲載していますが、
1月25日11時から20時頃まで、サーバが完全に停止しました。
また、26日・27日も大変アクセスしづらい状況でした。
ホントにご迷惑をおかけしました。
状況のご報告です。
1月25日 午前5時45分
サーバを5分ほど停止しました。
バックアップ用+家庭内共有用ディスクの付け替え作業
(120ギガ→350ギガ)を実施しました。
バックアップ用のディスク領域が増えたこともあり、
バックアップする範囲を大きく広げました。
今までは
・ホームページコンテンツ用ディレクトリ
・MySQLデータ格納ディレクトリ
・コンフィグ(設定)ファイルディレクトリ
位だったんですが、新たに
・/usr/local以下全部
・/etc全部
・/var全部
もバックアップ対象に。
1月25日 午前6時00分
定期バックアップの実施。
かなり時間がかかる。
HTTPのキューがたまり始める。
メモリを相当食っている様子。
かなりSwap領域まで使い始める。
1月25日 午前9時15分
1回目の停止。
原因は不明。ログ等にも残ってない。
たぶん、フリーズしたものと思われる。
1月25日 午前10時00分
停止していることに気づき、家に電話。
奥さんにリセットボタンを押してもらう。
何とか起動。
1月25日 午前10時30分
土曜日の馬番付出馬表更新開始。
1月25日 午前10時45分
2回目の停止。
これまた原因はわからず。再度家に連絡し、
リセットボタンを押してもらうが、立ち上がらず。
リセット時にBIOSで鳴る「ピコッ」って音聞こえる?
と奥さんに尋ねたところ、
「ピーッ、ピーッ」と2回鳴る
とのこと。
この時点で多分、OSはおろか、BIOS画面自体が立ち上がってないみたい?
という状況。
なすすべなし。
1月25日 午後5時00分
「家のサーバが止まったんで、帰っていいですか?」
といって、会社を早退(笑)
1月25日 午後7時00分
自宅に到着。
とりあえず、サーバにディスプレイを接続してみたが、真っ暗。
リセットボタンを押してみるも、やっぱり「ピーッ、ピーッ」と2回鳴る。
メモリだな。と思い、とりあえず箱を開ける。
見た目の異常はなし。
一旦メモリをはずしてみる。そして再度装着。電源on。
起動した。
だけど、LANボードを認識しない。
kernel: dc0: failed to enable port mapping!
kernel: dc0: couldn't map ports/memory
何度か抜き刺しを繰り返す。
1月25日 午後7時50分
なんとか起動し、ネットワークもつながる。
結局原因はわからないまま。
多分、メモリ不足?じゃないかと思われる。
その後も、かなりメモリを食いつぶしている様子。
1月26日 午前2時30分
この頃から、HTTPのプロセスがsignal 6やらsignal 11で落ち始める。
(たぶんメモリ不足)
1月26日 午前3時30分
データベース(MySQL)のプロセス落ちる
pid 744 (mysqld), uid 2000, was killed: out of swap space
1月26日 午前6時00分
定期バックアップの実施。
限界に近づいている様子。
kernel: swap_pager_getswapspace(16): failed
このメッセージがひたすら続き、Webからのアクセスが
ほとんど出来なくなる。
1月26日 午前8時10分
やむを得ず、リブート。
一応、メモリもLANボードも問題なく起動。
一応、土曜日はその後HTTPのプロセスが切り落とされることなく
動いていたみたい。
1月27日 午前6時00分
定期バックアップの実施。
この頃から再度HTTPのプロセスが落ち始める。
Webの表示も遅くなっている。
1月27日 午後1時30分
どうも「競走馬検索ランキング」用のテーブル、動きがおかしい?
と思い、テーブルをちょっといじる。
と、そのとたん、HTTPのプロセスがガツガツ落ちる。
断続的に午後4時30分頃まで。
1月27日 午後4時30分
遂にカーネルからもメッセージ。
kernel: swap_pager_getswapspace(11): failed
このメッセージが午後6時くらいまでの1時間半の間に
約4400回出力。
確実にメモリが足りない。
Webの表示は全く出来なくなる。
起動していた、レース結果の取り込みも
ほとんど機能していない。
データベースに接続できなくなっている。
メモリが足りずに動きが悪いところにアクセスが集中した様子で、
データベースへの最大接続数を越えたみたい。
起動している結果取り込みを切り落としながら
メモリ使用量が下がってくるのを確認して、取り込みを再起動してみるも
もう動かない。
1月27日 午後8時15分
再起動。もうこれしか手がない。
メモリもLANボードも問題なく起動。
今に至る。
一連のログや挙動を見る限り、
メモリ不足が原因のよう。
なぜ急にメモリ不足になったのかについては
・ディスク増設でバックアップ領域を増やしたこと
・急にアクセス数が増えた(1月26日、1日あたりのアクセス数過去最高を記録)
→HTTP子プロセスの増加と、データベースへの頻繁なI/O
あたりかと思います。
対策としては、現時点では
メモリを買って、増設するしかない
という感じです。
現在も微妙にアクセスしづらくなるときがあります。
ホントにご迷惑をおかけしてます。
つながらないときは、ちょっと時間を置いて、
見ていただければと思います。
1月25日11時から20時頃まで、サーバが完全に停止しました。
また、26日・27日も大変アクセスしづらい状況でした。
ホントにご迷惑をおかけしました。
状況のご報告です。
1月25日 午前5時45分
サーバを5分ほど停止しました。
バックアップ用+家庭内共有用ディスクの付け替え作業
(120ギガ→350ギガ)を実施しました。
バックアップ用のディスク領域が増えたこともあり、
バックアップする範囲を大きく広げました。
今までは
・ホームページコンテンツ用ディレクトリ
・MySQLデータ格納ディレクトリ
・コンフィグ(設定)ファイルディレクトリ
位だったんですが、新たに
・/usr/local以下全部
・/etc全部
・/var全部
もバックアップ対象に。
1月25日 午前6時00分
定期バックアップの実施。
かなり時間がかかる。
HTTPのキューがたまり始める。
メモリを相当食っている様子。
かなりSwap領域まで使い始める。
1月25日 午前9時15分
1回目の停止。
原因は不明。ログ等にも残ってない。
たぶん、フリーズしたものと思われる。
1月25日 午前10時00分
停止していることに気づき、家に電話。
奥さんにリセットボタンを押してもらう。
何とか起動。
1月25日 午前10時30分
土曜日の馬番付出馬表更新開始。
1月25日 午前10時45分
2回目の停止。
これまた原因はわからず。再度家に連絡し、
リセットボタンを押してもらうが、立ち上がらず。
リセット時にBIOSで鳴る「ピコッ」って音聞こえる?
と奥さんに尋ねたところ、
「ピーッ、ピーッ」と2回鳴る
とのこと。
この時点で多分、OSはおろか、BIOS画面自体が立ち上がってないみたい?
という状況。
なすすべなし。
1月25日 午後5時00分
「家のサーバが止まったんで、帰っていいですか?」
といって、会社を早退(笑)
1月25日 午後7時00分
自宅に到着。
とりあえず、サーバにディスプレイを接続してみたが、真っ暗。
リセットボタンを押してみるも、やっぱり「ピーッ、ピーッ」と2回鳴る。
メモリだな。と思い、とりあえず箱を開ける。
見た目の異常はなし。
一旦メモリをはずしてみる。そして再度装着。電源on。
起動した。
だけど、LANボードを認識しない。
kernel: dc0: failed to enable port mapping!
kernel: dc0: couldn't map ports/memory
何度か抜き刺しを繰り返す。
1月25日 午後7時50分
なんとか起動し、ネットワークもつながる。
結局原因はわからないまま。
多分、メモリ不足?じゃないかと思われる。
その後も、かなりメモリを食いつぶしている様子。
1月26日 午前2時30分
この頃から、HTTPのプロセスがsignal 6やらsignal 11で落ち始める。
(たぶんメモリ不足)
1月26日 午前3時30分
データベース(MySQL)のプロセス落ちる
pid 744 (mysqld), uid 2000, was killed: out of swap space
1月26日 午前6時00分
定期バックアップの実施。
限界に近づいている様子。
kernel: swap_pager_getswapspace(16): failed
このメッセージがひたすら続き、Webからのアクセスが
ほとんど出来なくなる。
1月26日 午前8時10分
やむを得ず、リブート。
一応、メモリもLANボードも問題なく起動。
一応、土曜日はその後HTTPのプロセスが切り落とされることなく
動いていたみたい。
1月27日 午前6時00分
定期バックアップの実施。
この頃から再度HTTPのプロセスが落ち始める。
Webの表示も遅くなっている。
1月27日 午後1時30分
どうも「競走馬検索ランキング」用のテーブル、動きがおかしい?
と思い、テーブルをちょっといじる。
と、そのとたん、HTTPのプロセスがガツガツ落ちる。
断続的に午後4時30分頃まで。
1月27日 午後4時30分
遂にカーネルからもメッセージ。
kernel: swap_pager_getswapspace(11): failed
このメッセージが午後6時くらいまでの1時間半の間に
約4400回出力。
確実にメモリが足りない。
Webの表示は全く出来なくなる。
起動していた、レース結果の取り込みも
ほとんど機能していない。
データベースに接続できなくなっている。
メモリが足りずに動きが悪いところにアクセスが集中した様子で、
データベースへの最大接続数を越えたみたい。
起動している結果取り込みを切り落としながら
メモリ使用量が下がってくるのを確認して、取り込みを再起動してみるも
もう動かない。
1月27日 午後8時15分
再起動。もうこれしか手がない。
メモリもLANボードも問題なく起動。
今に至る。
一連のログや挙動を見る限り、
メモリ不足が原因のよう。
なぜ急にメモリ不足になったのかについては
・ディスク増設でバックアップ領域を増やしたこと
・急にアクセス数が増えた(1月26日、1日あたりのアクセス数過去最高を記録)
→HTTP子プロセスの増加と、データベースへの頻繁なI/O
あたりかと思います。
対策としては、現時点では
メモリを買って、増設するしかない
という感じです。
現在も微妙にアクセスしづらくなるときがあります。
ホントにご迷惑をおかけしてます。
つながらないときは、ちょっと時間を置いて、
見ていただければと思います。
このネタへのコメント:
コメントはありません。