안녕하세요, 지방 모 과기원에서 석사 과정을 밟고 있는 대학원생입니다.
학부가 생긴지 얼마 안되어서, 이제서야 저희 학부의 서버를 구입하게 되었습니다.
교수님들께서 학교랑 거래하는 업체에서 견적을 맞춰 오셨는데, 제 짧은 지식으로 봤을 때
몇 가지 의아한 부분이 있어서, 저보다 더 해박하게 많이 알고 계시는 분들의 의견을 여쭙고자
여기를 찾게 되었습니다.
일단 가격은 육천 구백만원 정도로 두 개의 견적서를 받았습니다.
견적서를 보니
마스터 노드, 계산 노드, GPU 노드로 구성되어있었는데,
그 중 제가 그나마 조금 아는 부분인 GPU노드 견적의 일부를 가져왔으며, 이에 대해서 간단하게 질문을 드리고 싶습니다!
- Dual Intel® Xeon® Processor Gold 6136 (12Core , 3.00GHz)
- 192GB(16G DDR4 21300 REG/ECC * 12)
- NVIDIA QUADRO RTX5000 16G *4
- 2200W Redundant Power Supplies Titanium Level (96%)
- ODD LG DVD-MULTI
저희 학부에서 서버는 주로 머신 러닝을 위한 텐서 계산, 빅 데이터 병렬 처리, 블록체인 온디맨드 서버 구성용 (IBM Hyperledger),
딥 러닝에 필요한 GPU 연산(CUDA)을 주요한 목적으로 사용할 것 같습니다.
- 저의 짧은 지식으로는 ODD가 굳이 필요할까 싶으며,
- 쿼드로 GPU는 주로 그래픽 작업 및 렌더링 등에 적합한 것으로 알고 있는데, 혹시 제가 잘못 알고 있는 걸까요??
만약 그러한 용도가 맞다면, CUDA 개수가 더 많고 수치 연산에 뛰어난 다른 GPGPU를 찾는게 맞지 않을까 해서요...
- 또 CPU와 파워는 목적에 알맞을지, 다른 GPU와 궁합이 잘 맞을만한 다른 추천 조합이 있을지도 궁금합니다.
일단은 가격 상한 없이 추천해주신다면 정말 감사하겠습니다!
미리 감사드립니다!!
P.S.) 혹시 참고가 될까 하여 두 건의 견적서를 첨부해봅니다.
(규칙 상 견적 비교가 금지되어있다는 댓글 피드백이 있어 견적서는 삭제했습니다. 다음 번에는 규칙을 잘 숙지해서 질문하겠습니다...)
아무리 학교 공금이긴 하지만... 결국에는 국민 세금으로 사는 것인데
견적 보내준 업체에서 저 또는 교수님들이 모른다고 괜히 바가지 씌운 부품이 있거나 필요 없는데 구매하는 것들이 있지 않았으면 해서요...
댓글 달아주시는 분들께 미리 감사드립니다!!!
델 정품이고 신형이기 때문에 가격이 한 가격들 하죠...
HP에서도 동일 하게 견적을 내보세요..... 아 슈마와 Dell이 싸구나 할 겁니다..
대형 회사들이 연구하여 설계하고, 또 시스템을 기술적으로 보증하고..
각 부품들에 대해서도 보증하고..
모든 것이 포함되어 계산 되어진 것입니다..
우리나라는 못 만들죠.. 이렇게 비싼 돈 주고 사와야 합니다..
잘 활용하여 잘 쓰고.. 좋은 성과를 만드는 수 밖에는 없습니다..
삼성이 만들지도 못하지만 만든다고 하여도.. 싸게 팔 이도 없습니다..
부품 구성들은 좋아 보입니다..
퀴드로의 연산능력이나.. 내구성..
Cuda core 갯수 , 메모리 등.. 적당해 보입니다... 혹시 RTX 2080 Ti를 염두해 두신건지요..
한가지 의문이라면..
GPU 노드 부분에서..
제온 6136 이면 PCI-E 48레인정도 일 것인데..
Quadro RTX 5000.. 4개를 설치 했네요... 가능할 지.. 기본 64레인에 추가 20레인 해서..
CPU를 2개 설치 해야 할 것 같은데 말이죠..
또, 지금 견적 받은 것처럼 서버 한 대를 여러 랩에서 자원을 나눠 쓰는 경우 타이탄이 쿼드로보다는 낫다는 의견이 있던데 어떻게 생각하시는지요?
PCI-e lane 수, 메모리 겟수.. 등..
싱글 CPU로만 되는 보드는 그 한계가 있습니다..
연구용이라면 듀얼 시스템이 더 좋아보입니다...
차후에 코어가 많이 필요한 경우에 6176 이나 6173m 으로 업그레이드도 할 수 있습니다.
그러면 56코어 112쓰레드 시스템도 구성할 수 있습니다..
W3175X 는 CAD/CAM 서버에 좋은 CPU 입니다..
그리고 여기 견적비교 의뢰하는데 아닙니다. 강퇴조치 사유가 됩니다.
후딱 삭제하세요
질문으로는 다 이야기 못하는 부분들이 많습니다.
다들 대충 어느정도 이렇게만 이야기 될듯 합니다.
견적받는다고 구매 확정이 아니니 신경쓰지 마시고 정상견적을 받아보세요.
공부도 됩니다.. 하하하
댓글 감사드립니다. 좋은 밤 되세요.
저 학부 때 실리콘그래픽스 Indigo 7대가 들어왔습니다...
고장난다고 만지지도 못하게 하더니..
2년 후에는 먼지만..
합니다
딥러닝은 정밀도가 좀 떨어지는 fp16 정도의 연산만으로도 충분하기때문에, 쿼드로 rtx 보다는 타이탄 rtx가 훨씬 가성비가 좋고,
모델이 그렇게 크지 않은 경우라면 메모리 11G인 2080ti 정도로 충분하고 훌륭합니다.
다만 타이탄rtx는 철처히 개인적 용도를 타겟으로 제작된듯 해서, 방열도 별로 좋지 않고,
4개씩 다닥다닥 붙여서 설치하는것은 좀 문제가 있습니다.
그냥 두개 꽂은 기계를 기가빗 내지 10G 이더넷으로 연결하고 horovod 로 분산처리 하는게 요즘 추세인듯 합니다.
딥러닝 연산은 게임처럼 프레임마다 계속 데이터를 보내는것은 아니기에
pcie 레인은 GPU당 8레인 이면 크게 손해 보지는 않는다고 합니다.
굳이 GPU 숫자 x 16 을 할 필요는 없습니다.
이게 참 거시기한 문제인데요, 가성비를 극대화 시키시려면 제온 스케일러블 시리즈는 좀 아닙니다.
쓰레드리퍼 2950x? + 10G 랜 있는 보드 + 램16G x 8 + nvme 512G + 12G HDD 4개 정도로 가시는게 맞습니다.
그렇지만 문제생길때 처리하는 과정도 생각하셔야 할겁니다. 조립하자고 주장하신분이 여러 품 들이게 될겁니다.
음.. 근데 생각해보니 거기서 거기기는 합니다.
예전에 HP 기계 워런티 지나서 문제 생겼을때, HP에다가 수리요청을 했더니
거 엔지니어들 사무실에서 나가서 사이트 일 해결하고 다시 사무실에 들어올때까지 시간 다 계산해서
시간당 150불인가로 인건비 청구하더군요. 부품 재료비 별도로.
이.. 참 죄송합니다. 결론이 없네요.
저 또한 Quadro는 디자인과에서 많이 쓰는 것으로 알고있고, 구글링을 해봐도 머신 러닝/딥 러닝 용도로는 약간 맞지 않을 수 있겠다는 생각이 들어서 질문글을 쓰게 되었습니다.
그런데 "여러 품 들이게 되는 경우"는 추천해주신 '쓰레드리퍼 2950x? + 10G 랜 있는 보드 + 램16G x 8 + nvme 512G + 12G HDD 4개 정도' 조합으로 갈 경우를 말씀하시는건가요?
사실 제온 스케일러블 대신 다른 부품을 써서 비용을 조금 아낄 수 있다면 아낀 금액만큼 램이나 SSD, GPU를 더 장착하면 좋을 것 같긴 합니다.
사실 델, hp 엔지니어 라고 오시는 분들도 뭐 잘 모르시더라구요. 그냥 내가 해결 하는게 낫다는 생각 들때가 많았습니다.
제온 스케일러블 시리즈 CPU가 좋긴 합니다만, 좀 비싸고, 딥러닝 용도로 특별히 좋은거라 말하긴 힘듭니다.
일단 GPU가 제일 중요한데요, GPU 4개 꽂은 머신이라면, 8 core 이상의 CPU는 그렇게 유용할지 어쩔지 모르겠습니다.
training 단계라면 GPU 하나당 1 core 정도면 충분하구요, batch normalization 같은걸 적용해서 매 batch 마다 CPU가 뭔가를 해야 하는 경우라도
GPU 하나당 2 core 정도면 충분합니다. 즉, GPU 4개라면 8 core 머신이면 충분하구요,
데이터 전처리에서 멀티코어로 돌릴수 있는 부분이 있다면 모르겠습니다만, 그 이상은 낭비입니다.
제온 스케일러블하고 AMD 에픽/쓰레드리퍼 하고 비교하면 사실상 제온이 나은게 별로 없습니다.
제온이 L3 캐쉬가 통합되어 있으니 CCX/die 마다 분산되어있는 AMD보다 낫다고 말할 수 있지만,
딥러닝 같으면, 트레이닝 시키는 각 batch의 크기가 어차피 L3 캐쉬 용량보다 크고,
그때문에 캐쉬의 효용성은 별로고, 메모리 클럭이 더 영향을 주니까, 오버클러킹이나 xmp 같은거까지 고려하자면
AMD, 특히 쓰레드리퍼가 아주 괜찮은 선택입니다. GPU를 두개만 쓴다면 라이젠 시리즈도 나쁘지 않구요.
정말 감사합니다! 좋은 밤 되세요!!!
https://www.microway.com/knowledge-center-articles/comparison-of-nvidia-geforce-gpus-and-nvidia-tesla-gpus/
사실상 RTX6000과 RTX Titan은 ECC지원 제외하면 같은 카드로 보여요. (베이스 클럭이 RTX6000이 살짝 더 높긴 하지만 부스트 클럭은 같더라구요)
텐서코어의 int8계산 성능도 동일하구요... 타이탄이 절반정도 저렴하니 타이탄으로 가시는 것이 좋아 보입니다~
https://blog.inten.to/hardware-for-deep-learning-part-3-gpu-8906c1644664
위 링크에도 좋은 정보가 많아 보입니다.
정말 대단하신 분들이 많이 계시는것을 새삼 느끼는 중입니다.
질문과 답변 글에서 많은것들을 배우고 있습니다.
(너무어려워서 이해 못하는 것이 더 많음)
-- 좋은 글 , 답글들에 추천을 합니다.--
교수 : 야이..니가 책임질거야?
YES - 문제가 생길때마다 독박쓴다. 최악의 경우 졸업하고 나서도 불려다니거나 책임이 전가된다. 최소 머신이 바뀔때까지.
NO - 견적받은 대로 한다.
2. 눈감고 귀를 닫고 입을 막을 경우
약간의 부조리함(?)을 참으면 아무런 일도 생기지 않는다. 단지 더 좋은 머신이 생겼다. 내 돈 쓴 것도 아닌데..
딜러사에서 책정한 가격이 다소 불합리해 보일 수 있으나 공무원 특성상 항상 책임소재가 따릅니다. 벤더는 그 책임을 AS기간 내에, 혹은 지나더라도 비용을 지불하면 해결해주는 것이구요. 저라면 그냥 가만히 있겠습니다.
여기 여쭤보는 것도 교수님들께서 시켜서 하는 것이 아니라 정말 서로 좋자는 의미에서 ('내 돈'은 아니지만 어쨌든 돌고 돌아 여러 국민 분들의 세금이니까요!ㅜㅜ) 하는 것이라서 제가 여기서 도움받아 전달드릴 제안들이 받아들여져도, 안 받아들여져도 뭐든 괜찮습니다!
교수님이
"아야 ! 이번에 견적 받아 온건데..."
"이게 우리 연구목적에 맞는지 한번 알아볼레 ?"
라는 요구, 지시, 희망이 없었다면...
몇일 고민해보실 내용이신것 같습니다.
제 생각엔 계산컴에서 해먹으려는 과기원 교수는 아마 없을 겁니다. 수십억대도 아니고 고작 7천짜리 프로젝트에서 먹어봐야 얼마나 먹는다고 푼돈에 인생 걸 시대가 아니죠. ㅎㅎ 더구나 기업 스폰 연구도 아니고 회계와 감사가 얼마나 까다로운데요. 그렇죠?
너무 옛날 스타일로 생각하는 분들 계신데 편하게 비교견적 받아보시고 보고해보셔도 될 듯 합니다. 부품 사다가 조립하겠다는 것도 아니고 어차피 수퍼컴 취급하는 업체에 공급과 유지보수 모두 의뢰할텐데 네가 책임질 거냐는 얘기가 나올 일도 없을 듯 하고요.
또 이 글은 견적의뢰가 아니라 이곳에 어울리는 글이라고 봅니다. 반대로 견적의뢰는 말 그대로 견적을 의뢰하는 곳이지, 질문과 비교를 의뢰하는 곳이 아니지요. 견적 게시가 강퇴 사유라는데 그런 규정은 존재하지 않습니다.
한 가지 의견을 드리자면 여기 견적의뢰 보다는 수퍼컴 유지보수를 전문으로 하는 업체에 부품 구성에 관한 의견과 견적을 동시에 요청하시는 게 좋을 거라고 생각합니다. 서버 위주로 취급하는 업체들은 기술지원이 의미 없을지도 모르는 반면 수퍼컴 다루는 업체들은 계산 소프트웨어에 관련한 기초적 경험은 있을테니까요. 직접 공부해서 더 나은 방법을 찾을 후배가 생길 가능성은 높지 않으니 말이죠.
우선 교수님들이 해먹을 것(?)이라는 염려에 올린 글은 전-혀 아니구요ㅎㅎ
(지금 교수님이 뒤에서 보고 계시거나 하진 않습니다!ㅋㅋ)
오히려 견적 업체 쪽에서 그럴 수 있지 않을까...해서 올린 글입니다.
수퍼컴 업체에 의뢰한다는 방법도 있다는 것을 알아가네요! 감사합니다.
현풍에 납품하던 곳이라면 아마 수퍼컴 유지보수도 하는 업체일 것 같긴 한데요. ^^
대신 좋은 점이 있긴 합니다..
아마도 견적은 무상보증기간(보통 3년)만 들어간 견적이라고 생각되는데요..
고장시 콜하면 무상기간 보증기간내 24시간 안에 대응(전화상담/기사 방문)
여기에 장애시 몇 시간안에 장애 복구 몇년까지 라는 옵션들이 벤더컴에는 존재합니다..
대기업 서버들은 그런 계약이 맺어져 있는게 있는데요..(예로 돈 계산하는 서버는 10분 고장나면 몇억 빵꾸 , 따라서 장애시 몇분 혹은 몇시간 안에 고쳐야 함)
무지 비싸긴 하지만 그 옵션 넣으면 제조회사에서 국내 부품이 없으면 해외에서라도 공수해서 그 시간안에 장애 처리를 합니다..
그것을 못하면 벌금도 내는 경우도 있고요..
그런 쪽도 알아보세요..
nVIDIA 오리지날 시스템도 알아보세요..
https://www.nvidia.com/ko-kr/data-center/dgx-systems/
https://www.nvidia.com/ko-kr/data-center/hgx/
아마 최소 가격이 억정도 하는 것으로 알고 있습니다..
아마도 주서버는 1대이겠지만
전기 나가면 모든 작업이 엉망이 될수 있으니
큰 APC UPS (잘은 모르겠지만 10K W급 정도) 를 달아 두면 긴급 사태시 장비를 안전하게 끌수 있는 시간을 벌 수 있습니다..
작업후 결과물 데이터가 나올텐데 그것도 망실될 수 있으니 데이터 백업 서버 하나 있으면 좋습니다..
정말 감사드립니다!
혹시 사용하고자 하는 용도가 DP연산을 해야 한다면 무조건 쿼드로나 테슬라로 가야 하지만, 그게 아니라면, RTX가 맞다고 봅니다.
좀더 고속을 원한다면, 테슬라에는 Half Precision이 있어서 이게 Single Precision의 두배 속도를 낸다고 본거 같습니다. 하지만, 가격은 두배가 넘는다는거....
그래서 보통은 RTX를 추천하겠지만, 여기서 문제는, 플래그십 RTX는 개인에게 아주 소량만 판매한다는것입니다. 아마 대량으로 구하기는 힘들겁니다. GPU노드를 몇대나 사용하시는지는 모르겠지만, 이 부분 참고하세요.
그리고, 대형 벤더(델, HP)의 경우 서버 구매할 때 RTX 구매가 어려운걸로 알고 있습니다. 쿼드로나 테슬라는 몇개라도 가능하지만, RTX급은 서버와 함께 구매하는것이 안됐었습니다. (GTX1080당시 nVidia의 정책이었는데, 지금은 모르겠습니다.)
만일, RTX를 장착할 수 있는 상황이라면, 위엣분 말씀처럼 발열에 신경을 쓰셔야 하는데, 여러개를 붙여서 장착해야하다보니 일반적인 2 or 3개의 팬이 달린 형태보다는 Reference 타입의 쿨러(블로워팬)를 채용한것을 사용해야 합니다.
그럼 현풍전산 동아리를 찾아오시기 바랍니다
GPU 관련해서는 mskim 교수님이 전문가이십니다...
- ODD는 필요 없습니다
- GPGPU 용도로는 테슬라를 사거나, 아니면 싼맛에 지포스를 씁니다. 분자 동역학 시뮬레이션같이 오래 돌리는거면 ECC 기능이 중요해서 테슬라를 쓰는게 좋습니다.
- CPU 모델을 확인해보니 GPU PCIe 대역폭을 모두 수용합니다.