一連のサーバ不具合は…やはり暑さが原因であったと思われます。(障害総括)
一連の障害で
皆さまには多大なるご迷惑をおかけしましたことを
改めてお詫び申し上げます。
今日はその障害についての総括を。
-----
先々週くらいから先週末にかけて、サーバがかなりの高負荷となり
ページが表示されなかったり、データがちゃんと更新されなかったりと
不具合が続いていました。
この原因は…
結論から言うと、夏のこの暑さであると思われます。
---
「The Sunday Breeze」のサーバはLenovo製のノートパソコンを使用しています。
CPUはIntelの2.53GHzのCore 2 Duo。
管理人も全然知らなかったんですが
このCPU速度の2.53GHzというのは最大スピードであって
負荷が少ない時には速度を下げ、負荷が高い時に最大スピードで動くようになっているようです。
つまり、仕事がたくさんあるときには最大限の能力を使って仕事をし
仕事が少ない時にはちょっとサボるという仕組み。
まあ人間と同じですね。
ところが今回、仕事がたくさんある状況が続いたため
CPUが夏バテをしてしまいまして
「ああ…ごめんなさい、ちょっと疲れたんで休みます」
的な状況になりました。
Windowsのタスクマネージャーで見るとこんな感じです。
速度を見ると
最大スピード2.53GHzのおよそ30パーセント、760MHzでしか仕事をしていません。
そして速度が落ちたと同時に
CPUの使用率(つまり仕事のこなし具合)も30パーセント程度まで落ちています。
いろいろと調べてみた結果
これはCPU自体が過負荷による熱暴走を避けるために
ある一定の温度まで上昇した時に自動的に速度を下げて、使用率を下げて
温度を下げる仕組みがあるようです。
これ、しばらくして温度が下がるとまた仕事をし始めます。
「熱が下がったんで仕事復帰します〜」的な。
つまり
たくさん仕事がある状態で温度が上がってしまい、それが原因で速度が落ちると
その速度が落ちている間でも続々と仕事は発生しますので
どんどんと仕事が溜まっていってしまう…そのために処理が遅くなる
ということが今回のサーバ不具合の原因でした。
---
CPUのこういう仕組みが分かったんでCPUの温度を測定してみることにしました。
昨日から24時間の
CPU速度、温度、使用率のグラフがこちらです。
上の緑のグラフが速度(MHz)、真ん中の黄色いグラフが温度、下の茶色のグラフが使用率(パーセント)です。
赤い字は管理人が書き足しています。
今朝がたは午前2時すぎからデータベースのチェック機能が動いており
CPU速度が比較的早く、使用率もほぼ100パーセント、温度も80℃前後で推移しています。
その他の時間帯は特別な処理が動いていませんので
(午前6時と午後5時半はバックアップ処理が動いていますが)
CPU温度はほぼ外気温と比例しているといっていいでしょう。
(夕方以降上がっているのは謎ですが)
今週はさすがにもう35度を超えることもありませんでしたので
最大でも90度までいかない程度でおさまっていますが
先々週、先週は最大94〜95度くらいまでCPU温度が上がっていました。
んで(データはありませんが)90度を超えた状態が続くと、CPU速度が急激に落ち
そして仕事がどんどん滞留していき…処理がどんどん遅れいていくということになります。
---
簡単な解決策としては、やはり「CPUの温度を下げること」になります。
ノートパソコンの下に敷くクーラーなどの導入も考えましたが
あまり効果がなさそうでしたので
暫定的に先週日曜日はこんな対応をしてみました。
ちょっと横暴な手段ではありますが
ノートパソコンの下にアイスノン(いわゆる冷却材)を入れました。
いくらなんでも対応が雑だろ!と思いますが
意外とこれの効果がありまして。
先週日曜日の午前6時から午後6時までのグラフです。
午前6時の時点で、CPU温度は50〜60度くらい。
外気温の上昇とともにCPU温度も上がりまして、
午後2時の時点でだいたい60〜70度くらい。
そして?の時点(およそ午後2時20分くらい)に急激に負荷が高くなりました。
CPUはほぼフルスピード、使用率も100パーセント、温度は一気に80度を超えました。
そこで
先ほどの写真のように、アイスノンをノートパソコンの下に入れたのが?の時間(およそ午後2時50分)
CPUの速度、使用率に変化はないものの、温度が急激に下がっているのがわかります。
およそ30分程度で10度さがりました。
これで午後4時を過ぎてCPU使用率がやや低下気味になったのを見て
アイスノンをノートパソコンから外しました(これが?)
また一時的にCPU速度、温度、使用率いずれも上がりましたが
ピークはすでに過ぎていますので、それなりに安定した稼働ができています。
---
これ
「じゃあアイスノンを入れなかったら、CPU速度が落ちたのか?」と問われると
そればっかりは管理人でもわかりませんが
とりあえず今回はそれなりの効果があったというのが結論。
独自で水冷の冷却システムを作ろうかとか考えましたが
もう暑さのピークを過ぎましたので…これから手をうってもあまり意味はないかと。
(意味がないことはありませんが、そんなに効果もみられないかと)
-----
今回はCPUの仕組みを知ることができて
まさにそれが今回のサーバ不具合を起こしているということで
管理人としては一つ勉強になりました。
おそらくもう35度を超えるような日はほぼないと思います。
あったとしても数日だと思いますし、
その日にたまたま管理人が自宅にいれば、アイスノンを敷く対応ができますが
競馬観戦にでも出かけていれば、対応はできなくなります。
ノートパソコンでサーバを運営するのも限界があるのかな?とも思っています。
今後はサーバのハードウエアリニューアルも含めて
じっくりと考えて対応をしていきたいと思います。
改めて
今回の不具合で多くの皆さまにご迷惑をおかけしましたことをお詫び申し上げます。
-----
ということで、もう夏も終わりに近づきまして
夏競馬もあと2週で終わります。
明日は今週・来週の夏競馬観戦予定を。
ついでにその先の予定も書いていこうと思います。
皆さまには多大なるご迷惑をおかけしましたことを
改めてお詫び申し上げます。
今日はその障害についての総括を。
-----
先々週くらいから先週末にかけて、サーバがかなりの高負荷となり
ページが表示されなかったり、データがちゃんと更新されなかったりと
不具合が続いていました。
この原因は…
結論から言うと、夏のこの暑さであると思われます。
---
「The Sunday Breeze」のサーバはLenovo製のノートパソコンを使用しています。
CPUはIntelの2.53GHzのCore 2 Duo。
管理人も全然知らなかったんですが
このCPU速度の2.53GHzというのは最大スピードであって
負荷が少ない時には速度を下げ、負荷が高い時に最大スピードで動くようになっているようです。
つまり、仕事がたくさんあるときには最大限の能力を使って仕事をし
仕事が少ない時にはちょっとサボるという仕組み。
まあ人間と同じですね。
ところが今回、仕事がたくさんある状況が続いたため
CPUが夏バテをしてしまいまして
「ああ…ごめんなさい、ちょっと疲れたんで休みます」
的な状況になりました。
Windowsのタスクマネージャーで見るとこんな感じです。
速度を見ると
最大スピード2.53GHzのおよそ30パーセント、760MHzでしか仕事をしていません。
そして速度が落ちたと同時に
CPUの使用率(つまり仕事のこなし具合)も30パーセント程度まで落ちています。
いろいろと調べてみた結果
これはCPU自体が過負荷による熱暴走を避けるために
ある一定の温度まで上昇した時に自動的に速度を下げて、使用率を下げて
温度を下げる仕組みがあるようです。
これ、しばらくして温度が下がるとまた仕事をし始めます。
「熱が下がったんで仕事復帰します〜」的な。
つまり
たくさん仕事がある状態で温度が上がってしまい、それが原因で速度が落ちると
その速度が落ちている間でも続々と仕事は発生しますので
どんどんと仕事が溜まっていってしまう…そのために処理が遅くなる
ということが今回のサーバ不具合の原因でした。
---
CPUのこういう仕組みが分かったんでCPUの温度を測定してみることにしました。
昨日から24時間の
CPU速度、温度、使用率のグラフがこちらです。
上の緑のグラフが速度(MHz)、真ん中の黄色いグラフが温度、下の茶色のグラフが使用率(パーセント)です。
赤い字は管理人が書き足しています。
今朝がたは午前2時すぎからデータベースのチェック機能が動いており
CPU速度が比較的早く、使用率もほぼ100パーセント、温度も80℃前後で推移しています。
その他の時間帯は特別な処理が動いていませんので
(午前6時と午後5時半はバックアップ処理が動いていますが)
CPU温度はほぼ外気温と比例しているといっていいでしょう。
(夕方以降上がっているのは謎ですが)
今週はさすがにもう35度を超えることもありませんでしたので
最大でも90度までいかない程度でおさまっていますが
先々週、先週は最大94〜95度くらいまでCPU温度が上がっていました。
んで(データはありませんが)90度を超えた状態が続くと、CPU速度が急激に落ち
そして仕事がどんどん滞留していき…処理がどんどん遅れいていくということになります。
---
簡単な解決策としては、やはり「CPUの温度を下げること」になります。
ノートパソコンの下に敷くクーラーなどの導入も考えましたが
あまり効果がなさそうでしたので
暫定的に先週日曜日はこんな対応をしてみました。
ちょっと横暴な手段ではありますが
ノートパソコンの下にアイスノン(いわゆる冷却材)を入れました。
いくらなんでも対応が雑だろ!と思いますが
意外とこれの効果がありまして。
先週日曜日の午前6時から午後6時までのグラフです。
午前6時の時点で、CPU温度は50〜60度くらい。
外気温の上昇とともにCPU温度も上がりまして、
午後2時の時点でだいたい60〜70度くらい。
そして?の時点(およそ午後2時20分くらい)に急激に負荷が高くなりました。
CPUはほぼフルスピード、使用率も100パーセント、温度は一気に80度を超えました。
そこで
先ほどの写真のように、アイスノンをノートパソコンの下に入れたのが?の時間(およそ午後2時50分)
CPUの速度、使用率に変化はないものの、温度が急激に下がっているのがわかります。
およそ30分程度で10度さがりました。
これで午後4時を過ぎてCPU使用率がやや低下気味になったのを見て
アイスノンをノートパソコンから外しました(これが?)
また一時的にCPU速度、温度、使用率いずれも上がりましたが
ピークはすでに過ぎていますので、それなりに安定した稼働ができています。
---
これ
「じゃあアイスノンを入れなかったら、CPU速度が落ちたのか?」と問われると
そればっかりは管理人でもわかりませんが
とりあえず今回はそれなりの効果があったというのが結論。
独自で水冷の冷却システムを作ろうかとか考えましたが
もう暑さのピークを過ぎましたので…これから手をうってもあまり意味はないかと。
(意味がないことはありませんが、そんなに効果もみられないかと)
-----
今回はCPUの仕組みを知ることができて
まさにそれが今回のサーバ不具合を起こしているということで
管理人としては一つ勉強になりました。
おそらくもう35度を超えるような日はほぼないと思います。
あったとしても数日だと思いますし、
その日にたまたま管理人が自宅にいれば、アイスノンを敷く対応ができますが
競馬観戦にでも出かけていれば、対応はできなくなります。
ノートパソコンでサーバを運営するのも限界があるのかな?とも思っています。
今後はサーバのハードウエアリニューアルも含めて
じっくりと考えて対応をしていきたいと思います。
改めて
今回の不具合で多くの皆さまにご迷惑をおかけしましたことをお詫び申し上げます。
-----
ということで、もう夏も終わりに近づきまして
夏競馬もあと2週で終わります。
明日は今週・来週の夏競馬観戦予定を。
ついでにその先の予定も書いていこうと思います。
このネタへのコメント:
コメントはありません。