파워 잔여 수명을 확인할수 있는 방법이 있을까요?

   조회 6907   추천 0    

HPC 용으로 247 계속 돌리다 보니 오래된 서버들은 파워가 터지기 시작합니다.

연기나거나 터져서 화재 알람이 뜨면 바로 파워만 갈아끼고 계속 돌립니다만, 최근에 몇개가 연속해서 터지니까 데이터 센터에서 불편해 합니다.

다만 모두 다 바꾸기에는 예산이 들것 같아 선택적으로 미리 바꿀려고 하나, 잔여 수명을 추측할수 있는 방법이 있을까 궁금합니다.

단순히 오래된 서버의 파워만 교체하기에는, 파워는 돌려쓰는 경우가 많아서 서버 년수와 종종 맞지 않습니다.

분해해서 컨덴서를 확인해 보거나 파워 업타임을 확인해야 할것 같습니다만, 가능한지 모르겠습니다. 파트 자체에 제조일도 없는것 같습니다.

서버는 대부분 델 서버로 R630, R640, R730, R740 등 입니다.


연관된 질문으로, 파워가 터지면 화재가 랙단위로 번지는 경우가 있나요?

큰 화재로 번지지만 않는다면, 파워를 미리 교체 하지 않고 터지는대로 교체하는 방식을 계속 유지하고 싶습니다만, 데이터 센터에서는 여러 이유로 동의하지 않습니다.

그중에 가장 큰 이유는 혹시 모를 큰 화재 방지이구요.


다들 답변 감사드립니다.

정리하자면 파워의 잔여 수명은 체크할수 없고, 예방 차원에서 때 되면 미리 교체하는게 좋다.

다만 다른 문제가 있을수 있으니, 데이터센터와 델에 연락해서 온도, 전력, 용량 등을 확인하라.

짧은글 일수록 신중하게.
박문형 2021-04
파워의 잔여 수명은 제가 아는 한은 체크할 수 없습니다..

곱게 잘 썼을때 콘덴서의 수명을 보아 10년 정도가 최대 맥시멈입니다..


파트 자체에 제조일도 없는것 같습니다.  ===> 시리얼 넘버는 있을 것이기에 구매한 곳이나 델 쪽에 강하게 문의해보십시오..


연관된 질문으로, 파워가 터지면 화재가 랙 단위로 번지는 경우가 있나요?  ===> 당근 있습니다.. 보통 잘 오픈되지 않습니다..

벤더 서버 파워가 터져 나간다는 것은 쉽지 않은 일입니다..

원인이 나와야 합니다..

제조사의 테스트나 검증이 필요합니다.. ==> 해줄지도 모르고 돈 따로 내라고 할 수 있습니다..

벤더 서버들은 자신만의 파츠만 동작합니다..

델서버 파츠들 보면 파워들이 여러 종류의 와트가 있는데 지금 사용하시는 것이 몇와트인지 확인하시고 델에 기술지원 문의하셔서

가장 큰 용량 모델로 바꿀수 있으면 바꿔 보세요..

델서버 모델에 따라서는 1000~2000와트 파워 모듈들도 있습니다..

원인 분석및 원인 발견 그리고 문제점 픽스까지 많은 시간과 고생 그리고 돈이 들 듯합니다..



그리고 어떤 IDC 인지는 모르겠지만 그쪽의 전원이 딸리는지 안정되었는지도 확인해야 합니다..

(IDC에서는 아마도 자기네 위신이나 체면 문제로 협조를 하지 않을 수 있습니다..)



잘 해결되시기를 기원합니다..



델에서 여러 대의 서버를 구매하였고 유지 보수에 관해 계약이 되어 있다면 그것을 기점으로 델에게 불편한 점을 이야기 하고

빨리 FIX 해달라고 하세요..

벤더 서버를 비싼 돈주고 사용하는 이유는 저런 유지 보수 계약이 있기 때문입니다..
김준연 2021-04
이게 무슨 수명 예측 기능이 있는 것도 아니라서 그냥 고장율 통계를 기준으로 또는 감으로(?) 예방 차원에서 때 되면 바꿔주는 것 말고는 답이 없습니다.
xfreeman 2021-04
혹시 서버실 온도가 높지 않나요?
제 경험상 예전에 서버실 온도가 높을때는 파워가 자주 고장났었는데
idc 이전하고는 온도가 많이 낮아지면서 파워 사망하는 일이 거의 없습니다.
hp서버, 심지어 조립서버중에도 10년이상 된 서버들이 몇대 있는데 파워들 잘버티고 있습니다.
     
박문형 2021-04
+100

중요한 문제입니다..

특히나 랙에서 밑바닥은 시원한데 위로 올라갈수록 온도가 높아질 수 있습니다..

제 머리 속에 있는 기억은 서버가 죽어나가면서 최대 버티는 IDC온도는 약 35도쯤일 겁니다..

(IDC 에어콘 죽었을때 온도가 살살 올라가고 결국은 서버 열축적으로 다 죽습니다..)

농담으로 겨울에 IDC 방문해도 들어가면 추워야 합니다..

IDC에서 지정한 운용 온도가 있을 터이니 그것이 재대로 지켜지는지 다 확인해보는 것도 좋습니다..
하셀호프 2021-04
일단 사고난 모델의 파워는 일괄 바꾸어주는 것이 좋을 듯 합니다
어떤 경우는 단순히 먼지가 많아서 고장나는 경우도 있다는데 간단히 외관을 보시는 것도 좋을 듯 하구요
R630, R640, R730, R740 등 서버들이 파워가 터진다는 것은 그다지 자주 듣는 말은 아닌데요
서버 파워 뿐 아니라 그냥 일반 pc 파워도 잘 터지지 않습니다
뭔가 원인이 있을 것도 같습니다
언젠가는 2021-04
많은 답변 감사드립니다.

파워 용량은 750W 혹은 1100W이고, 실 사용량은 450-600W정도입니다. (CPU는 주로 2697 v3*2, 2699 v4*2, 6154 * 2, 등 전력 소모량이 많습니다).

11KW 랙으로 1랙당 20~30대 넣고 있습니다.

데이터 센터 온도는
inlet 온도는 랙 아래쪽은 18도 위쪽은 30도
outlet 온도는 랙 아래쪽은 35~40도 위쪽은 45~50도
cpu 평균 온도는 60~80도 입니다.

하나 설명을 잘못한게 최근에 구입한 서버들의 파워가 터졌다고 생각하지 않습니다. 그래서 델 서버의 문제라고 생각하진 않구요, 그냥 오래된 파워 문제라고 생각합니다.
파워를 돌려쓰기한게 많아서 추측상으로 터진 파워는 주로 R630에서 왔을 겁니다. 연수로는 아마 최대 6년, 평균 2년 일겁니다.
그래서 별 탈이 없다면 그냥 터지는대로 교체만 하면 괜찮다고 생각했었습니다. 파워가 개별적으로 비싼것도 아니구요.

워런티는 R630은 대부분 만료되었고, R640은 살아있습니다만, 오래된 파워 문제라 생각해서 따로 연락하지는 않았고요. 말씀대로 델이랑 한번 이야기 해봐야겠습니다.
박문형 2021-04
IDC에 이야기 하셔서 우리 랙만 위쪽 온도 5도만 낮추어 줄 수 있냐고 문의해보세요..

아니면 뜨거운 바람이 나오는 뒷쪽에 큰 송풍기 여러 개 보강하는 것도 방법이 될 수 있습니다..
펜듀얼 2021-04
예전에 비슷하게 고민하다가 콘덴서 용량을 보는게 가장 쉬운방법일듯해서 전기 관련 카페에 물어본적이 있는데 보드에 붙어있는 상태로 측정하면 오류값이 나올 확률이 상당히 높다고 하더군요. 그렇다고 일일히 떼어내서 값을 확인하는것도 실제 필드에선 불가능할테구요. 떼어내서 측정도 해봤는데 그래픽카드 요구치에 약간 모자르는 5년 이상된 파워 두개를 분해해서 대용량 콘덴서만 떼내서 테스터기로 실측해보니 한개는 원래용량의 50% 미만, 한개는 100% 다 나오는 특이한 경우도 있더군요. 50퍼센트 나온게 fsp 파워였고 100프로 나오는게 파워렉스였으니 브랜드보고 파워 고르는것도 정답은 아니구나 싶었습니다. 여튼 별수없이 기간 설정후 교체만이 답을거 같습니다.
epowergate 2021-04
IDRAC 보시면 그 순간에 어떤 일이 있었는지 확인 가능할겁니다
최소한 전력공급 상태가 나 빴다거나 하는거 확인 가능합니다.
술이 2021-04
일단 평균 CPU 온도 높은거보니 시퓨점유율 100프로 가까이 뭐 돌리나 봅니다.
둘째는 저거 디스크 인터널 쓰나요 외부 DAS/SAN/10G Network 사용하는지가 관건일거 같습니다.
인터널 디스크 사용이라면 잘터질겁니다. CPU 부하가 많은건 반드시 외장스토리지 사용해야하는게 정석입니다.
언젠가는 2021-04
네 모두 시뮬레이션 용이라 CPU 사용량 전력 사용량 100% 항상 유지가 목표 입니다. 실제로 대부분 그렇게 돌고 있구요.
부하가 큰 만큼 파워 죽는거 자체는 이해됩니다. 그래서 미리 파워가 터질만한 게 있으면 교체하고자 하구요.

개별 서버의 스토리지 부하는 보통 20W에 (tmp용으로 raid10으로 2.5 ssd 2~4개), R730 몇대는 80W 입니다 (storage용으로 raid6으로 3.5 hdd 12개 추가)
다만 대부분의 부하인 스크래치는 외부 NFS으로 사용합니다.
네트워크는 몇 중요 서버는 40~100G이고 대부분은 10G입니다.
별로 특이할거 없는 HPC 구성입니다.

idrac 상에 전력공급 상태가 저장되나요? 현재 전압/전류과 이벤트 로그에 확실히 끊긴 경우는 뜨는데, 과거 전압/전류 기록은 남지 않는걸로 알고 있습니다.
제온프로 2021-04
실내온도가 높으면 파워가 잘 나갑니다..

파워의 내구성을 올리는 방법은 서버의 시스템 팬 rpm 을 올리면 됩니다..

서버 메인보드 온도를 30도 후반 40도 초반에만 묶어놯도  파워 오래 갑니다..

그리고 파워는 터지지 않습니다..

약간의 문제가 발생하면 서버는 바로 Offline으로 빼 버립니다..

파워가 터지는 상황까지 가지를 않습니다..


QnA
제목Page 3839/5714
2014-05   5189252   정은준1
2015-12   1722272   백메가
2002-11   11557   이대우
2012-01   8917   힘내자
2014-03   8416   정용우
2016-08   8457   NeOpLE
2005-08   6566   이광호
2015-07   14569   김영기
2021-04   6908   언젠가는
2012-01   5501   방o효o문
2020-01   2412   리장님
2012-02   6413   와우컴
2014-03   3302   방o효o문
2012-02   6453   박상범
2014-03   3913   카프카
2022-12   1500   간장게장
2015-07   7310   날개
2002-12   11790   정회정
2005-09   5313   구명서
2012-02   6898   손갑빈
2015-07   5102   전설속의미…
2018-11   3205   이희권