勝手に再起動される

2019年10月30日

はじめに

サーバーが勝手に再起動されるトラブルについての対処メモ。

環境

Red Hat Enterprise Linux Server 7.3

調査

/var/log/messages に以下のようなメッセージあり。

smad: WARNING: Unexpected Shutdown and Restart - An undetermined error type resulted in a reboot of the server.

以下の情報を見つけた。

以下を無効にせよとある。

  • Minimum Processor Idle Power Core C-State
  • Minimum Processor Idle Power Package C-State

/var/log/messages に以下のようなメッセージもあった。

kernel: CPU5: Core temperature above threshold, cpu clock throttled (total events = 1)
kernel: CPU3: Package temperature above threshold, cpu clock throttled (total events = 1)
...
kernel: CPU5: Core temperature/speed normal
kernel: CPU7: Package temperature/speed normal

"Core" や "Package" が上記の情報と対応しているので、やはりこれが原因か? C-states というのは、CPU 制御する仕組みらしい。

C-states の無効

C-states の確認。

$ cat /sys/devices/system/cpu/cpuidle/current_driver
intel_idle

$ cat /sys/module/intel_idle/parameters/max_cstate
9

C-states を無効にしてみる。

/etc/sysconfig/grub の GRUB_CMDLINE_LINUX に以下を追記する。

intel_idle.max_cstate=0 processor.max_cstate=0

grub2-mkconfig の実行が必要。一応 grub.cfg のバックアップを取っておく。

# sudo cp /boot/efi/EFI/redhat/grub.cfg /boot/efi/EFI/redhat/grub.cfg.old
# sudo grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg

再起動。

$ cat /sys/devices/system/cpu/cpuidle/current_driver
none

参考