안녕하세요
서버 팬 장애로 요몇일 몸살을 앓고 있는 중입니다.
정상인 서버들만이라도 미리 캐치하려고 ipmitool 을 열심히 설치(centos7) 하고 돌려봤는데
HP 서버와 Dell 서버 사이에 극명한 차이가 있어서요.
여러분들의 도움을 받고자 합니다.
HP 서버에서 해당 명령어를 돌리면 아래와 같이 출력됩니다.
# ipmitool sdr type fan
Fan Block 1 | 2Dh | ok | 7.1 | 61.15 percent, Transition to Running
Fan Block 2 | 2Eh | ok | 7.2 | 61.15 percent, Transition to Running
Fan Block 3 | 2Fh | ok | 7.3 | 61.15 percent, Transition to Running
Fan Block 4 | 30h | ok | 7.4 | 61.15 percent, Transition to Running
"Transtion to Running" 이라고 정상임이 표시 되어 해당 문구 유/무에 대해서 모니터링을 걸어 놓고 있습니다.
팬 성능에 문제가 생기면 ok 필드일지라도 "Transtion to Degraded" 라고 표시되더군요.
여하튼 "Transtion to Running" 표시가 될 때는 정상, 그렇지 않을때는 비정상 알람을 걸어놓으면 문제 없을 것이라고 판단하고 있습니다.
하지만 Dell 서버는 HP보다 불친절합니다.
# ipmitool sdr type fan
Fan1A | 30h | ok | 7.1 | 5160 RPM
Fan2A | 32h | ok | 7.1 | 4800 RPM
Fan3A | 34h | ok | 7.1 | 5160 RPM
Fan4A | 36h | ok | 7.1 | 4800 RPM
이정도만 나오고 있기에.. 명확하게 상태 파악이 안되고 모니터링을 걸만한 내용도 부족합니다.
Dell 서버에서도 팬 상태 체크 및 간단한 문구를 기준으로 모니터링을 걸만한 방법이 있을까요?
도와주세요!! 감사합니다!!!
https://studyforus.com/tipnknowhow/479025
LIO 나 IDRAC 에 들어가서 에러로그나 상태를 보면 펜에 대한 상태가 나올텐데요??
그리고 그것들의 사용법 중에는 에러로그가 뜨면 그것을 어떤 특정 메일주소로 메일을 주는 기능 같은 것이 있을 겁니다..
그 외는 제조사에서 나오는 통합 IPMI 관리 프로그램을 알아보시던지요..
통합 IPMI 관리 프로그램이라는 것은 여러대의 서버를 셋팅해두면 그 통합 IPMI 관리 프로그램에서 셋팅된 전체의 서버의 IPMI 상태를 모니터링
이상이 있을때 확인 가능한 프로그램을 말합니다..
이런 프로그램은 유료인 경우가 많습니다..
상용 서버에 적용하는 것이라 서버 재부팅이 절대적으로 어려운 환경이라서..
최대한 간단하게 적용해보려고 한 것이 ipmitool 이었습니다.
답변 감사드립니다!
말씀하신 fan의 상태가 정상이지 않을 경우 온도가 상승하고 이에 따른 온도 변화도 감지 되어야 합니다.
(fan의 문제가 저전압, 팬 자체 불량등 원인이 여러가지가 있을 수 있습니다. )
fan의 성능저하? 를 모니터링 하는것이 아니라 각 밴더에서 BMC에 설정된 fan의 rpm low-high 값을 모니터링 하는게 중요 합니다.
PWM 으로 변경되는 rpm 값이 설정값보다 너무 낮거나 너무 높거나 하면 bmc event log에 기록을 남기게 되어있습니다.
fan을 모니터링 하는 것이 아니라 ipmitool sel list 로 발생되는 각각의 이벤트를 모니터링 하는 것이 서버 하드웨어의 상태를 확인하는 더 유용한 방법일 것입니다.
ipmitool sel list 에 error, fail, warning 등의 문구로 모니터링하는것을 추천 드립니다.
감사합니다!!