|
[필독] 처음 오시는 분을 위한 안내 (736) |
정은준1 |
2014-05 |
5212660 |
0 |
2014-05
5212660
1 정은준1
|
|
(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (234) |
백메가 |
2015-12 |
1743931 |
25 |
2015-12
1743931
1 백메가
|
53917 |
ATTO카드에서 expressPCI UL3D 66 솔라리스 지원되나요?` |
정영철 |
2008-07 |
5518 |
24 |
2008-07
5518
1 정영철
|
53916 |
한글파일 질문좀 하겠습니다. (3) |
성민박 |
2017-05 |
5518 |
0 |
2017-05
5518
1 성민박
|
53915 |
네트워크에 관심있거나 잘 아시는분 한번 결론을 내려보세요 (1) |
김윤술 |
2007-06 |
5518 |
10 |
2007-06
5518
1 김윤술
|
53914 |
스카시 설치시 (7) |
오세윤 |
2008-01 |
5518 |
9 |
2008-01
5518
1 오세윤
|
53913 |
용산에 AS 기간 지난 슈마보드 CPU 소켓 수리하는 곳 있나요? (2) |
online9 |
2015-02 |
5518 |
0 |
2015-02
5518
1 online9
|
53912 |
CPU 기내 반입이 가능하겠죠? (10) |
꿈꾸는베빈야 |
2018-06 |
5519 |
0 |
2018-06
5519
1 꿈꾸는베빈야
|
53911 |
이름을 찾아 주세요 (11) |
준바이 |
2016-03 |
5519 |
0 |
2016-03
5519
1 준바이
|
53910 |
AMAQUEST VS6200B std case에 일반 하드를 장착하려고 하는데.. |
김창윤(k) |
2006-11 |
5519 |
23 |
2006-11
5519
1 김창윤(k)
|
53909 |
scsi 케이블 구매시 주의사항? (3) |
홍현철 |
2005-09 |
5519 |
30 |
2005-09
5519
1 홍현철
|
53908 |
기업은행 접속이 잘 안됩니다. (3) |
철이님 |
2015-09 |
5519 |
0 |
2015-09
5519
1 철이님
|
53907 |
주방의 싱크대(설겆이하는부분)이 구형으로 2개로 나눠진 형태인데요...요즘나오는 … (3) |
김건우 |
2016-07 |
5519 |
0 |
2016-07
5519
1 김건우
|
53906 |
[알리익스프레스]11월11일(광군제)때 해외직구 여러가전제품 50~70만원 통관될까요? (5) |
박중석 |
2018-11 |
5519 |
0 |
2018-11
5519
1 박중석
|
53905 |
보드질문드립니다^^ (1) |
정태수 |
2007-01 |
5519 |
39 |
2007-01
5519
1 정태수
|
53904 |
보드 좀 구해수세요. (1) |
임종열 |
2009-08 |
5519 |
0 |
2009-08
5519
1 임종열
|
53903 |
연결 프로그램 목록을 관리하는 방법? (3) |
노정래 |
2006-01 |
5519 |
11 |
2006-01
5519
1 노정래
|
53902 |
레이드 10 풀림 (1) |
이정찬 |
2007-12 |
5520 |
9 |
2007-12
5520
1 이정찬
|
53901 |
컴퓨터 다운 현상 (3) |
김주용s |
2009-03 |
5520 |
0 |
2009-03
5520
1 김주용s
|
53900 |
윈도우 부팅시 화면과 게임실행시 화면이 볼록으로 나옵니다... (1) |
조대헌 |
2007-11 |
5520 |
15 |
2007-11
5520
1 조대헌
|
53899 |
서버좀 추천해 주세요.. (6) |
봉삼이2 |
2012-05 |
5520 |
0 |
2012-05
5520
1 봉삼이2
|
53898 |
VGA카드의 컴포넌트 아웃에 대한 질문입니다. (3) |
최창현 |
2007-01 |
5520 |
19 |
2007-01
5520
1 최창현
|
구매한 곳이나 해당 슈마 수입원 AS센터에서는 모라고 하나요??
https://www.supermicro.com/support/resources/OS/OS_Certification_Intel.cfm?MProduct_Name=SYS%2D4028GR%2DTR
해당서버는 래드햇 밖에 호환성 검증이 안된 것으로 보여집니다..
메모리 24개는 다 같은 회사 같은 모델인가요??
보드만 놓고 보면 우분투 14 /15 버젼 정도에서 SATA /SAS 환경에서만 호환성이 검증되어 있습니다..
구매한 곳에 기술지원 해달라고 하세요..
구매한 곳에서 어디 AS센터로 연락해라 하면 거기 연락해서 기술지원 받으세요..
RTX3090이 검증된 장비도 아닙니다.
이것 만으로도 잘못될 수 있는 원인이 너무나 많습니다.
우선 서버내부 온도가 25C 이하를 유지하는지 부터 확인해 보세요
GPU가 못 버티고 고장나거나 심하면 타거나
시스템이 못버티고 뻗거나 심하면 죽어버리거나
할 수 있으니 조심해야 합니다..
우선 10이나 20% 4개 다 부하를 주게 해보고 견디면 조금씩 부하를 늘려보세요.. (시간 마니 걸립니다..)
그리고 전기를 무지 먹고 열도 무지나기 때문에 사용하시는 곳 전기가 모자르면 전원 차단기 내려갈 수도 있습니다..
GPU 시스템은 계산 시작하면 모든 GPU가 풀로 돌아가면서 동작하고 그런 식으로 몇 달씩 돌려도 뻗지 말아야 합니다..
구축하는데 돈 좀 들었을텐데 고장나거나 타버리면 답이 안나옵니다.. (보통 타버리면 수리 거부 당합니다..)
저게 가끔씩 멈추는 원인이 될수 있습니다.
로드 걸린상태로 돌아갈때 ipmitool sdr 명령으로 각종 센서 상황 살펴보시기 바라고,
그때의 GPU 온도하고 팬 돌아가는 % 확인해야 할 필요 있어 보입니다.
갤럭시 어떤 모델인지 모르겠으나 공기가 뒷쪽으로 배출되는 블로워 타입이 갤럭시에 있던가요?
굳이 350W로 써야 할 이유가 있는것이 아니라면 280W나 250W로 돌리시는거 추천합니다.
저도 전에 처음 3090 사서 350W로 풀 로드 걸어서 며칠 돌리니까 저렇게 ERR!이라고 나오고,
해당 GPU관련 설정 해보려고 하니까 자꾸 멈추고, 리부팅하니까 인식 되다말다하고... 그러더군요.
교환받고나서는 겁나서 그냥 250W로만 돌리고 있습니다.
아니면 BMC 로그 캡춰 가능하신가요??
삼성 ssd해서 문제된 경험이 있다고 해서...인텔 ssd로 한다면...
왜 문제가 되었는지 아시나요??
NVME M.2 U.2라면 레이드 보드에서 묶을때 인텔 것만 쓸수 밖에 없지만 지금 사용하는 시스템에서는 관계 없을텐데요..
7.68tb 씁니다...sata니깐 상관은 없을거 같네요 ㅠㅠ
진짜 뭐가 문제인지 모르겠네요
이거 이야기입니다만 스케일러블 CPU 부터 적용이 됩니다..
삼성 기업용 SSD면 벤더서버에서도 마니 사용됩니다..
시스템과 OS가 호환이 안된다 : 제조사에서 호환된다는 자료가 없다.. 사용자가 검증해야 한다..
시스템과 3090 호환성이 없다 : 본래 쿼드로 같은 GPU 용도로 제작된 시스템이다.. 사용자가 검증해야 한다..
시스템이 3090 GPU 전기 먹는 양을 견디지 못한다 : V100 검증되었는데 이게 250W인가 300W가 최대일 것이다 .. 제조사가 검증해줘야 한다..
BIOS와 BMC가 최신인지 아니면 검증된 것인지 모르는 상태이다..
그 외
메모리가 진짜 문제가 없는지 모른다.. (불량메모리도 있을수 있다..)
우선 시스템 멈추는 문제를 잡을려면 어디엔가 있을 에러메세지를 찾아야 합니다..
OS에서 부팅로그나 그런데 에러가 나타날수 있고
서버보드 BMC에서 에러가 나타날수도 있습니다..
대략 5~10대쯤 굴리시는 듯한데 한 두푼도 아니고 이거 판 슈마 총판이나 구매한 곳은 무슨 말 없나요??
각개전투로 부품만 구입해서 본인이 다 구축하셨다면 본인이 다 풀수 밖에 없습니다..
#1 : BIOS와 BMC 를 최신으로 업데이트 한다..
#2 : BMC 에 들어가서 에러로그를 확인하고 로그를 다 지운다..
#3 : https://www.memtest86.com/ 리눅스 베이스 메모리 테스트 프로그램을 다중코어 상태로 장시간(몇일) 돌려서 메모리와 CPU에 문제가 있는지 확인한다..
메모리 용량도 다 뜨는지 확인한다.. 너무 많은 램은 프로그램이 못 따라가서 다 채크를 못할수도 있다..
메모리 에러가 난다면 BMC 에러로그를 확인하고 불량메모리를 교체하던지 청소를 하던지 해서 문제를 없앤다..
#4 : https://www.netlib.org/benchmark/hpl/
하이 퍼포먼스 린팩을 리눅스에 설치하여 장시간 돌려본다..
이 프로그램은 CPU와 메모리에 100% 부하를 주고 메모리를 계속 여러번 테스트한다.. 스탑 명령어를 주어야 멈춘다..
시스템이 불안하면 이 프로그램 돌리다가 시스템이 고장날 수 있기에 조심해야 한다.. 시스템이 뜨끈뜨끈해진다..
안정도 확인을 위해 몇일 돌려본다
이 정도 테스트 해서 패스 하면 시스템의 CPU와 메모리는 문제가 없다라고 할 수 있습니다..
이정도면...발열로 인해서 발생이 되는걸까요?
죽은놈은 일딴 빼 보세요...
윈도우 이벤트로그에 보면 답이 있을 겁니다..
OS 상의 로그 메세지 또는 서버에서 제공되는 로그 메세지 기록을 확인 해보셔야 할 듯 합니다
아니시면 hw 상태를 최소부팅(1P 최소메모리) 상태로 만들고
작업을 해보셔서 접근해보셔도 될 듯 합니다
현재의 문제가 hw 아니면 sw 문제인지 원인부터 찾아봐야 할 듯 합니다
Cpu 1P,
최소메모리
장착 GPU는 모두 제거
그래도 멈추시는 한번 보시고 그래도 멈춘다고하면
Cpu다른 나머지 cpu를 장착해보시고 해보시면 어떠실지?
지금 상황으로는 장애에대란 원인이 뚜렷하게 나와있지 않기때문에
저라면 무엇때문에 멈춘다는 원인을 하나하나 검증 해볼거 같네요
동일한 서버가 더 있으신듯 한데 동일한서보는 문제가 없다면 비교를 해보셔야 합니다
이후 내용이 궁금합니다!