현재 개인적인 용도로 아래와 같은 시스템을 운영중입니다.
운영체계는 전부 Ubuntu이고, 근본없는(?) 조립서버들 입니다
A 서버 : B서버용 데이터 입력/저장서버 + DB + ELASTIC SEARCH 엔진
B서버 : 시뮬레이션 서버(xeon 8core single CPU, 128GB DDR3 ), NVME SSD
C서버(신규) : GPU (싱글 or 듀얼 CPU GPU: 파스칼 TITAN X 2~3장 예상), NVME SSD
데이터 흐름도 입니다
특정 산업용 장비에서 산출되는 실시간 데이터는 A서버에 쌓이고
20~30G정도 쌓일때마다 B서버로 넘겨서 (SMB이용) 계산에 들어갑니다
B서버는 A서버에서 데이터를 받아 멀티코어에 지원되는 in house 유체해석엔진을 돌리고(내부적으로 3단계)
결과값은 TAR파일 형태로 A서버로 다시 던지고 있습니다
그런데 B서버에서 이루어지는 총 3단계의 작업중 마지막 단계의 작업을
멀티 GPU 기반으로 연산하면 시간을 크게 아낄수 있다는것을 알게 되어
테스트를 마치고 C서버를 만들어보려고 합니다.
B시스템은 사실 다른분이 만든것이라 100% 구조를 이해하지 못하고, 제것도 아닌지라
A나 C시스템과 통합하는것은 가급적 피하고 싶습니다.
여기서 질문드립니다.
1. A-B-C서버간 데이터 전송속도를 올리기 위해 장터표 멜라녹스 10G 랜카드를 생각했는데요
세대를 엮기위해서10Gb 스위치를 사는것은 너무 낭비인거 같고
CPU부하가 크지 않은(대부분은 GPU부하) C서버에 멜라녹스 10Gb 듀얼포트 랜카드를 꽂고
리눅스에서 A-C-B형태의 가상브릿지를 만들어서 운영해도 NVME SSD속도를 충분히 뽑을수 있을까요
(꼭 10Gbe 속도를 다 뽑을필요는 전혀 없습니다, 기가비트 보다만 빠르면...)
2. 삼바서버(SMB)를 쓰는경우 RoCE (RDMA on Conveged Ethernet)이라는 기술을 쓰면
부하를 많이 줄일수 있다는데...이걸 이베이표 ConnectX-2 카드들 에서도 이용할수 있을까요
3. GPU연산서버는 어느정도 속도가 있는 3Ghz 이상 ES/QS CPU 8코어에
파스칼 타이탄 2~3장 + 10G Eth로 구성하려고 합니다.(FP16 연산으로도 충분합니다....테슬라는 살돈이 없어요ㅠㅠ)
그러면 PCI-EX 3.0 16X + 16X + 16X + 8X 정도가 필요한데...
ASROCK x99 WS같은 PLA스위치가 달린 보드를 쓰면 CPU 40 lane을 갖는 싱글 제온으로도
위 조합을 돌릴수 있을까요?
원래 듀얼도 생각했는데 우선 CPU가 로드가 크게 걸리지 않는것 같고,
혹자는 멀티 GPU + 듀얼CPU의 경우 두개 CPU가 각 GPU를 들여다봐야 해서 실질 성능이 저하된다고....
회사돈으로 베어본이나 슈마에서 나오는 4Way 시스템 하나 턱 들이면 좋은데
이게 전부 개인돈 들여서 하는것이라 CPU도 QS로 구할까 해서 조립으로 가야할거 같습니다
네트워크와 서버에 대해 지식이 부족해 자세히 적지 못하는 점 양해부탁드리고
조언해주시면 감사하겠습니다.
½´ÆÛ¸¶ÀÌÅ©·Îº£¾îº» Áß¿¡
4GPU¶ó¸é
https://www.supermicro.com.tw/products/system/4U/7048/SYS-7048GR-TR.cfm
8GPU¶ó¸é
https://www.supermicro.com.tw/products/system/4U/4028/SYS-4028GR-TR.cfm
½´ÆÛ¸¶ÀÌÅ©·Î ¼öÀÔ¿ø¿¡ ¹®ÀÇÇÏ½Ã¸é °ßÀû Àß ÁÙ °ÍÀÔ´Ï´Ù.
ÀüüÀûÀÎ °¡°ÝÀ» »ý°¢Çغ¸¸é »ý°¢¿Ü·Î ½Ô´Ï´Ù..
±×¸®°í GPUÄ«µåµé¿¡ °ËÁõµÇ¾î ÀÖ°í¿ä.
QS³ª ES CPU°¡ µ¹¾Æ°¡ÁÙÁö°¡ ¸ð¸£°Ú³×¿ä^^;; Çѹø °ßÀû ¹Þ¾Æº¸°Ú½À´Ï´Ù
Ȥ½Ã, 1¹ø¿¡ 10Gb ³×Æ®¿öÅ© ºê¸´Áö´Â ±¸ÇöÀÌ °¡´ÉÇÒ±î¿ä...?