안녕하세요.
전산해석(시뮬레이션)을 업으로 하는 사람입니다.
최근에 워크스테이션이 추가로 필요하여 Xeon Gold 6154가 2개 달린 것(36cores)으로 하나 구매하였습니다.
그런데 연산속도가 기존에 쓰던 Xeon E5 워크스테이션(32cores) 보다 속도가 안나오더라구요.
그래서 여러가지를 확인해보니 아래와 같은 특이점을 발견했습니다.
1. Turbo boost 가 꺼져 있다.
- Xeon Gold 6154는 Turbo boost off 시 3Ghz, on 시 3.7Ghz 로 작동합니다.
그런데 Turbo boost 를 키면 Full Load 시 전원이 나가버립니다.
Turbo boost를 끄면 Full Load에서도 이상이 없습니다.
전원은 1,500W 짜리라 전원부족이 원인 같지는 않은데, 혹시 이런 경우 보드 문제 일수 있나요?
보드를 판매한 업체에 문의를 하니 Turbo boost는 불안정하니 서버에서는 원래 사용하지 않는다고 하네요. (보드는 tyan사 제품)
이게 맞는 소린지... 혹시 유사한 경험 있으시거든 공유 부탁드립니다.
2. 메모리가 cpu당 2개씩 만 꽂혀있다.
- Xeon Gold는 cpu당 6채널 메모리를 지원하는데, 현재 cpu당 2개씩 맞 꽂혀 듀얼채널로 작동하고 있습니다.
이 경우 메모리를 cpu당 4개씩 추가하여 6채널로 구성하면 cpu 연산속도 향상에 도움이 될지요?
3. Windows vs Linux
- 기존 Xeon E5는 Linux OS 에서 작동하며, Xeon Gold 는 Windows에서 작동합니다.이상입니다.
전문가 분들의 좋은 의견 부탁드립니다.
감사합니다.
아마도 보드가 Gold 6154를 설계에 않넣지 싶은데요..
스펙 상으로는 Gold 6154를 지원한다고는 되어 있네요.
하여튼 6154는 쉽게 쓸수 있는 놈이 아녀서요.... Beast 입니다.
그럼 파워를 의심해야죠....
파워 교체...
$3,543.00
Performance
# of Cores : 18
# of Threads : 36
Processor Base Frequency : 3.00 GHz
Max Turbo Frequency : 3.70 GHz
Cache : 24.75 MB L3
# of UPI Links : 3
TDP : 200 W
RAM: 삼성 32GB 2400Mhz * 4ea (2ea per CPU)
M/B: Tyan s7100gm2nr
Storage: 삼성 SSD 970 PRO NVMe M.2 2280 1TB
GPU: NVIDIA Quadro P620
PSU: 1,500W (업체/제품명은 모르겠습니다...)
NVME가 뜨거울수 있습니다..(뜨거워서 다운됨)
바이오스/펌웨어를 최신으로 업데이트 해보세요..
부하줬다고 시스템이 꺼지는 건 좀 이상한데
윈도우즈에서 링스(CPU 부하 100% 주는 프로그램)나 번인 테스트 돌려 보셨나요??
아니면 리눅스에서 HPL 돌려 보셨나요??
이거 잘못 돌리면 시스템 터지는 경우가 있습니다..
그리고 전 시스템이 리눅스라면 지금 시스템도 리눅스로 비교하는 것이 맞다고 봅니다..
https://www.tyan.com/Motherboards%3DS7100%3DS7100GM2NR%3Ddescription%3DEN
여기에 잘 뒤져 보시면 OS호환리스트가 있습니다..
메모리는 갯수 보고 메뉴얼대로 꼽으면 됩니다..
저 보드는 메모리슬롯이 CPU당 6개라 모든 메모리 뱅크를 다 채워야만 메모리 대역폭이 풀로 됩니다..
그러나 현실은 그렇지 못하죠..
제가 쓰는 S/W로 CPU부하 100%를 줄 수 있어서 별도의 테스트는 안해봤습니다.
제 생각에도 부하가 높다고 전원이 그냥 나가버리는건 좀 이상한 것 같습니다.
이부분은 업체분께 지속적으로 확인 요청을 해야겠습니다.
바이오스도 최신이 아닌데 이부분도 업체에 요청을 해야겠네요.
OS는 워크스테이션마다 쓰는 목적이 달라 OS를 다르게 쓰고 있습니다.
이부분은 어떻게 확인할 방법이 없네요.
파워는 아마도 1,500와트면 인헨스 1,500와트 일겁니다..
그리고 작업 많이 해보셔서 아시겠지만
어떤 시스템이든 저런 작업은 항상 CPU 부하 100% 상태에서 1주일이든 2주일이든 작업 끝날때까지 에러 안나고 버텨줘야 하는게 맞습니다..
회사에서 쓰는 워크스테이션이라 제가 안을 열어볼수가 없었습니다.
업체에서 와서 확인을 해주셔야 하는데... 확인 요청 해보겠습니다.
에러 로그가 남아 있나 보세요..
보통 갑자기 죽는건 에러로그가 잘 없는데 메모리 에러나 그런건 에러 로그가 남습니다..
에러로그 남으면 지우지는 마시고요..
제가 함 공부해보겠습니다.
감사합니다.
네트웍을 타고 들어가서
서버의 건강상태를 모니터링 합니다..
리모트 콘트롤로 서버를 다 제어 합니다..(껏다 켯다 / 바이오스 셋팅 / 심지어 OS 설치까지)
펌웨어/ 바이오스 업데이트도 합니다..
요즘 보안하고 관련되어 재일 중요하게 된 것 중에 하나입니다..
웍에는 없고 서버에만 있습니다..
그리고 보통 리눅스 쪽 패키지가 살짝 성능 우위인 경우가 많습니다.
CFD(전산유체) S/W 입니다.
구글링 해보니 Linux vs Windows는 갑론을박 하는 글들이 많네요.
아마도 Windows는 Background에서 돌아가는 것들이 많아 Linux보단 느릴 수 있다고 생각됩니다.
풀로드 오랫동안 발생하면 쿨러소리도 장난이 아닐텐데요.
쿨러소리 굉음을 내지 않으면 그런거 식혀주지도 못할겁니다. 왠지 온도 문제 같아보입니다. 온도 모니터링하는 유틸 깔아보고 80도이상 올라가는지 확인해보세요. 서버 CPU들 3기가 넘어가면서 온도 장난 아닐겁니다.
윈도우가 백그라운드에서 돌아가봐야 뭘 돌아가나요. 대부분 유휴상태로 대기모드입니다. 리눅스가 조금 낫다고 할수는 있지만 그렇게 크게 차이날 성능은 절대 아닙니다.
제가 설명이 부족했습니다.
CPU 100% 부하로 셋업하고 엔터치면 바로 전원이 나갑니다.
부하가 걸린상태로 시간이 지나고 전원이 내려가면 온도를 의심해볼텐데,
온도가 올라갈 시간도 없이 바로 전원이 내려가니 보드나 파워가 계속 의심이 되네요.
2. 분명 차이는 있을 것 같지만 체감될 수준은 아닐 것 같습니다.
3. 연산의 종류에 따라 조금 다를 수는 있는데.. OS에 의한 차이는 별로 없을 겁니다. 컴파일러나 라이브러리에 의한 차이가 클 것 같네요.
제가 궁금했던 부분들만 꼭꼭 집어 답해주셨네요.
문제가 해결되면 또 글 남기겠습니다.
2.메모리 채널을 올리면 미미한 성능차는 있습니다. 하지만 이보다 더 드라마틱한 것은 외부 저장 매체쪽이지요. nvme가 모든 곳에 다 만능은 아닌게, 발열도 발열이지만 nvme를 raid 걸면 프리징이 걸리는 경우가 있습니다. raid bios가 정상적인 nvme가 아닌 그냥 조금 빠른 HDD로 인식해버리는 경우입니다.
3.cpu와 플랫폼을 그것도 같은 인테르를 가지고 나눈다는 건.. ㅋㅋ
최근에는 특별히 윈도우라고 리눅스라고 빠르거나 느리거나 하지는 않는 것 같습니다. 물론 앱을 개발하는 당시에 api의 풀랫폼 포팅에 차이때문에 약간 성능차는 있겠지만 최근에는 OS자체의 의한 성능차는 미미하게 봅니다.
덧, 그 업체 웃기는 곳이군요. 저 같으면 새제품으로 교체 요구를 할 것 같습니다. HP나 Dell, IBM(lenovo) 같은 업체의 서버나 웍스를 쓰시지 굳이 스케일러블까지 쓰시면서 조립을 고수하신 이유를 잘 모르겠네요. 업체 측에 항의를 해야할 문제 입니다.
기존 4110을 8173 (8176? 기억이...)으로 바꿨는데 비슷한 문제가 발생했습니다. 고생하다가 CPU HeatSync를 바꾸고 해결이 되었습니다.
High Performance Heat Sync던가 뭐 그런게 있습니다.
그리고 CPU 열 올라가는건 전원 넣자마자 바로 올라갑니다. 히터처럼 천천히 올라가지 않습니다.
1U는 그게 안되는 듯하고요..
일반 Silver 급 CPU를 사면 1U HeatSync가 들어가 있습니다.
저희는 그게 문제였던것으로 판단하고 교체했더니 해결이 되었었습니다.
근데 재질의 가격 때문에 보통은 위의 날개는 철판때기 밑의 판때기는 일부 구리밒 히트 파이프로 된 제품을 씁니다..
요건 165와트까지 견디는 것으로 아는데 슈마에서는 205와트 견딘다고 적혀 있기는 합니다..
인텔의 쿨러 디자인 레퍼런스 가이드를 보면 대략 답이 나옵니다..
한번에 3K 이상 선금 넣고 주문이 가능하시면 쓸만한 히트씽크 가르쳐 드릴수 있으나
3K를 소화하는 것은 쉽지 않습니다..
https://www.intel.com/content/dam/www/public/us/en/documents/guides/xeon-scalable-thermal-guide.pdf
전 gold 6148 2개+asus c621e sage 사용중인데..혹시 온도는?
전 수냉이라 별문제 없지만...
저도 작년에 cpu 나오자마자 데탑에 2개 달았는데 부스터 키면 소음이 장난아닙니다.
코어사용수량과 관계없이 걍 부스터 동작하면 팬이 풀로드로 소음이 그냥.
전원문제는 없었습니다. 사무실에서 2주 돌리다가 눈치보여서 터보를 껐습니다.
터보 끄면 해석 속도가 저하됩니다.
테스트 결과 os 에 따라 속도차이있습니다. 리눅스가 10%정도 빠릅니다.
dell 7920 런칭할때는 수냉킷 없다고 해서 안샀는데 탁사님 댓글보고 수냉킷 구매해야겠네요 ㅋㅋ