[질문] "ipmitool sdr type fan" 관련 문의드립니다

롤백이   
   조회 1823   추천 0    

안녕하세요

서버 팬 장애로 요몇일 몸살을 앓고 있는 중입니다.

정상인 서버들만이라도 미리 캐치하려고 ipmitool 을 열심히 설치(centos7) 하고 돌려봤는데

HP 서버와 Dell 서버 사이에 극명한 차이가 있어서요.

여러분들의 도움을 받고자 합니다.

HP 서버에서 해당 명령어를 돌리면 아래와 같이 출력됩니다.

# ipmitool sdr type fan

Fan Block 1      | 2Dh | ok  |  7.1 | 61.15 percent, Transition to Running

Fan Block 2      | 2Eh | ok  |  7.2 | 61.15 percent, Transition to Running

Fan Block 3      | 2Fh | ok  |  7.3 | 61.15 percent, Transition to Running

Fan Block 4      | 30h | ok  |  7.4 | 61.15 percent, Transition to Running

"Transtion to Running" 이라고 정상임이 표시 되어 해당 문구 유/무에 대해서 모니터링을 걸어 놓고 있습니다.

팬 성능에 문제가 생기면 ok 필드일지라도 "Transtion to Degraded" 라고 표시되더군요.

여하튼 "Transtion to Running" 표시가 될 때는 정상, 그렇지 않을때는 비정상 알람을 걸어놓으면 문제 없을 것이라고 판단하고 있습니다.


하지만 Dell 서버는 HP보다 불친절합니다.

# ipmitool sdr type fan

Fan1A            | 30h | ok  |  7.1 | 5160 RPM

Fan2A            | 32h | ok  |  7.1 | 4800 RPM

Fan3A            | 34h | ok  |  7.1 | 5160 RPM

Fan4A            | 36h | ok  |  7.1 | 4800 RPM

이정도만 나오고 있기에.. 명확하게 상태 파악이 안되고 모니터링을 걸만한 내용도 부족합니다.

Dell 서버에서도 팬 상태 체크 및 간단한 문구를 기준으로 모니터링을 걸만한 방법이 있을까요?


도와주세요!! 감사합니다!!!

짧은글 일수록 신중하게.
박문형 2023-06
왜 IPMITOOL만 사용해야 하죠??

https://studyforus.com/tipnknowhow/479025

LIO 나 IDRAC 에 들어가서 에러로그나 상태를 보면 펜에 대한 상태가 나올텐데요??

그리고 그것들의 사용법 중에는 에러로그가 뜨면 그것을 어떤 특정 메일주소로 메일을 주는 기능 같은 것이 있을 겁니다..

그 외는 제조사에서 나오는 통합 IPMI 관리 프로그램을 알아보시던지요..

통합 IPMI 관리 프로그램이라는 것은 여러대의 서버를 셋팅해두면 그 통합 IPMI 관리 프로그램에서 셋팅된 전체의 서버의 IPMI 상태를 모니터링

이상이 있을때 확인 가능한 프로그램을 말합니다..

이런 프로그램은 유료인 경우가 많습니다..
     
롤백이 2023-06
링크 감사합니다,
상용 서버에 적용하는 것이라 서버 재부팅이 절대적으로 어려운 환경이라서..
최대한 간단하게 적용해보려고 한 것이 ipmitool 이었습니다.
답변 감사드립니다!
fan에 대해서만 모니터링 하는것은 조금 문제가 있지 않을까요?
말씀하신 fan의 상태가 정상이지 않을 경우 온도가 상승하고 이에 따른 온도 변화도 감지 되어야 합니다.
(fan의 문제가 저전압, 팬 자체 불량등 원인이 여러가지가 있을 수 있습니다. )
fan의 성능저하? 를 모니터링 하는것이 아니라 각 밴더에서 BMC에 설정된 fan의 rpm low-high 값을 모니터링 하는게 중요 합니다.
PWM 으로 변경되는 rpm 값이 설정값보다 너무 낮거나 너무 높거나 하면 bmc event log에 기록을 남기게 되어있습니다.
fan을 모니터링 하는 것이 아니라 ipmitool sel list 로 발생되는 각각의 이벤트를 모니터링 하는 것이 서버 하드웨어의 상태를 확인하는 더 유용한 방법일 것입니다.
ipmitool sel list 에 error, fail, warning 등의 문구로 모니터링하는것을 추천 드립니다.
     
롤백이 2023-06
이렇게 하나 더 배워가는군요..
감사합니다!!


QnA
제목Page 319/5725
2015-12   1768100   백메가
2014-05   5242760   정은준1
2023-06   2490   kamiss
2023-06   3126   비빔밥빔비
2023-06   4969   고구마군
2023-06   2038   바부팅이
2023-06   2344   장동건2014
2023-06   1553   김효수
2023-06   2211   SouthH
2023-06   2282   삐돌이슬픔이
2023-06   1146   epowergate
2023-06   1701   미담
2023-06   1630   iwill
2023-06   1765   장동건2014
2023-06   1939   흔냥이
2023-06   1236   keros
2023-06   2383   MWWM
2023-06   1689   히카리3
2023-06   2928   슈퍼윤
2023-06   2597   이창준
2023-06   2884   오성기
2023-06   2735   그그