¿©±â´Â dual xeon E5-26xx V4 cpu ¾²½Ã´Â ºÐµé ¸¹ÀÌ °è½Ã°ÚÁö¿ä? Ȥ½Ã º¥Ä¡¸¶Å© ºñ±³°¡ °¡´ÉÇÒ±î¿ä?

ikaros7   
   Á¶È¸ 1971   Ãßõ 0    

안녕하세요. 일주일 전에 2cpu 가입한 초보 입니다.

그 동안 눈팅만 하다가 (유익한 내용들 많이 배웠습니다. 감사합니다!), 솔직히 말씀드리면 이게 너무 궁금해서 질문을 드리고자 가입했습니다.


제가 E5-26xx V4 시스템 중고에 대한 것을 알고 나서.. 한번 써보고 싶은 것을 못참고 조립을 했는데요.

- cpu: E5-2680v4 듀얼

- mainboard: Huananzhi X99-F8D Plus (실제론 C612 서버용 칩셋)
(중국제 메인보드 사면 안된다고 많이들 말리시는데도 샀다가 이 고생을;;)

- memory: Hynix HMA42GR7MFR4N-TF DDR4-2133(@2400) 16GB x8 쿼드


듀얼 cpu 구성인데, 양쪽 CPU가 각각의 remote RAM 접근시 latency/bandwidth가 이상합니다.

성능 측정은 PerformanceTest 11.0 버전 > advanced > Memory... 에서 한건데요.

latency (random range) NUMA node 0  NUMA node 1 
NUMA allocation node 055.58ns55.58ns
NUMA allocation node 181.58ns80.88ns


block write speed NUMA node 0  NUMA node 1 
NUMA allocation node 03785MB/s3813MB/s
NUMA allocation node 12119MB/s2069MB/s


cpu0, cpu1이 각각 다른 CPU에 붙은 (remote) memory 접근할때는 QPI 통과 delay가 생기는 건 알겠는데,

보시다시피 NUMA node 0 (cpu0) 쪽하고 NUMA node 1 (cpu1) 쪽하고 서로 대칭이 되는 결과가 아니라, 무조건 cpu1 쪽 메모리 접근할때만 latency, bandwidth 모두 큰 폭으로 나빠집니다.

두 소켓의 cpu를 서로 교환해봐도, 메모리를 서로 교환해봐도 결과가 같습니다.


그래서 저는 메인보드를 의심(소켓 불량? PCB 임피던스 문제?)하고 Aliexpress 셀러를 집요하게;; 괴롭혔습니다. ^^;


1. 셀러측에서 처음에는 듀얼 cpu를 사용하면 무조건 퍼포먼스가 떨어진다고 우기더니

(네, 보드에 cpu 하나만 장착했을 때, 45ns --> 두 개 다 장착 후 55ns로 이미 떨어지긴 했습니다.)


2. 제가 왜 한쪽(cpu1)만 더 떨어지느냐? 했더니,

CPU 별 서로 다른 PCI-E 슬롯이 연결되서 그렇다는 이상한 소리를 하다가,

(CPU에 연결된 PCI-E 디바이스가 IMC에도 영향을 주나요? 참고로, m.2는 0번 CPU 고정, 그래픽카드는 0/1번 어느쪽 cpu에 연결해도 문제 동일합니다.)


3. 제가 그것 때문에 저렇게 큰 메모리 접근 속도 차이가 날 수가 있느냐?했더니,

(아마도 셀러가 너무 귀찮고 짜증나서) 지네 메인보드 디자인 한계라고 환불해주겠댑니다.



근데 사실 동일 CPU인 시스템의 passmark/cinebench 등의 점수를 검색해서 비교해보면, 제 메인보드가 다른 X99/C612 메인보드/워크스테이션보다 점수가 많이 떨어지거나 하지는 않거든요.

(ASUS, 슈퍼마이크로, HP, ... Dell만 다른 벤더보다 좀 눈에 띄게 좋더군요.)

그러면 저런 비대칭 속도가 정상인건지? 그렇다면 어째서 그런지? 여전히 설명이 고팠구요. 다른 xeon e5-26xx v4시스템에서도 이렇게 cpu0/cpu1 양쪽 메모리 점수가 비대칭으로 나오는지 궁금하네요.


그래서 이번엔 다시 passmark에 물어보았습니다.

https://forums.passmark.com/performancetest/56786-advanced-memory-test-shows-huge-performance-drop-for-the-2nd-cpu-of-mp-workstations


저는 내심 "passmark가 advanced > memory test 잘못하는거 아니야?"라는 의도도 있었는데...

하지만 passmark 관리자가 테스트 결과가 확실히 좀 이상해보이네? 한 것 외에는, 아무도 댓글을 달아주지 않네요. ㅠㅠ 아마도 이젠 구닥다리 e5-26xx v4 듀얼 구성따위 놀아보는 사람이 별로 없기 때문이겠지요.

앞서 퀘이사존에도 질문을 해봤지만, ( 2cpu는 이메일 인증 통과하기까지 시간이 좀 걸렸네요 ^^;) 역시 답이 없었습니다.


Passmark의 PerformanceTest 11.0 버전 > advanced > Memory... 에서

cpu 0/1 -- mem 0/1 4가지 경우에 대해서 latency랑 bandwidth 테스트 좀 부탁드려도 될까요? 

테스트 방법은 아래 스샷 참조하셔도 되시고, 위의 passmark 쪽 링크에도 설명이 있습니다. 오래 걸리지 않습니다.


1. Passmark PerformanceTest 11.0 설치 후 실행, 탑다운 메뉴의 Advanced > Memory ...


2. latency test를 numa node 0 / 1 , numa allocation node를 0 / 1 , 총 4가지 조합에 대해 수행하여 하단 random range latency 비교.


3. block write에 대해서 마찬가지로, numa node 0 / 1 , numa allocation node를 0 / 1 , 총 4가지 조합에 대해 수행하여 새 창에 표시되는 bandwidth 비교.


혹시 보유하고 계신 dual xeon e5-26xx v4 시스템도 mem0, mem1의 성능이 크게 다른건 아닌지 궁금하지 않으세요? ^^;

이젠 진짜진짜 더 이상 물어볼 곳도 없네요. ㅠㅠ






e5-2680v4 듀얼, 128gb, 3080ti, c612, P20C
ªÀº±Û Àϼö·Ï ½ÅÁßÇÏ°Ô.
¼¿·¯ÀÇ ¸»¿¡ °õ°¨ÀÌ µÇ´Â Á¤µµ ÀÔ´Ï´Ù.

ÀÔÃâ·Â ´ã´çµµ µÎ CPU Áß¿¡ ÇÑ CPU°¡ ¸ÕÀú ¹Þ¾ÆÁÙ °ÍÀ̸ç.

µÎ cpu ¸Þ¸ð¸® Á¢±Ù ¼Óµµ°¡ Â÷ÀÌ°¡ ³­´Ù¿¡ º°·Î  ³î¶øÁö´Â ¾Ê½À´Ï´Ù.

CPUÀÇ ¼øÂ÷´ë±â¿Í OS Ä¿³ÎÀÇ °£¼·Àº ¾î¿ ¼ö ¾ø´Â °Å ¾Æ´Ñ°¡¿ä ??

±×·¡¼­ ¿äÁòÀº RDMA ¸¦ »ç¿ëÇÏÁÒ.
IP v6 ¸¦ ±â¹ÝÀ¸·Î DRMA¸¦ ±¸ÇöÇÏ¿©...... Á÷Á¢ ¾ï¼¼½º ÇÏ°í ½Í½À´Ï´Ù.
±× CPU ¿Í OSÄ¿³ÎÀÇ °£¼·À̳ª Delay ¾øÀÌ ´Ù¸¥ ¼­¹öÀÇ ¸Þ¸ð¸®¿¡ Á¢±ÙÇÏ°í ½Í½À´Ï´Ù.
RDMA ¸¦ ÅëÇؼ­..

´Ù¸¥ °Íµéµµ Á÷¾÷ ¾ï¼¼½º ÇÏÀÚ´Â ¿òÁ÷ÀÓ.
RDMA over NVMe
RDMA over NFS
RDMA over GPU


±×¸®°í Áß±¹º¸µå¿¡ µÎ cpuÀÇ Á¢±Ù¼Óµµ Â÷ÀÌ°¡ ³­´Ù..´Â Áú¹®Àº ¹«¸® ÀÔ´Ï´Ù.

¸ÞÀκ¸µå°¡ ½Ñ°Å.. ´ç¿¬È÷ ±â¼úÀûÀ¸·Î ºÎÁ·ÇÏÁÒ..
±×°Ô ¿Ïº¯ÇÏ°í HPº¸µå³ª Dellº¸µå¿Í ºñ½ÁÇÏ´Ù¸é µ·À» ¸¹ÀÌ ¹Þ°ÚÁÒ..

¿¬»ê½Ã¿¡ Á¤È®ÇÏ°í ¿Ïº®ÇÑ µ¿ÀÛÀº  IBMÀÌ Àß ÇÕ´Ï´Ù...
Lenovo ±â°èÂÊÀ» º¸¼¼¿ä..
Thinkstation P900,P910,P920
X3650 M5
dateno1 04-03
º¸Åë ·¥Àº Á÷°áÀÌÁö¸¸, ³ª¸ÓÁö´Â Á÷°á ¾Æ´Õ´Ï´Ù

¹Ý´ëÆí ½ÃÇ»¿¡ ÀÖ´Â PCIe´Â µô·¹ÀÌ ±Ø¾ÇÇÏ°Ô ´Ã¾îÁö°í, ½ÉÁö¾î´Â °°Àº ½ÃÇ»³»¿¡¼­µµ Äھ µû¶ó ·¥ Á¢±Ù ¼ÓµµÂ÷ ³³´Ï´Ù

±×¸®°í ¸ÖƼµ¥½ºÅ·À̹ǷΠ´Ù¸¥ ¿äÀεµ ¹èÁ¦ Èûµì´Ï´Ù
¹Ú¹®Çü 04-03
¹ÙÀÌ¿À½º === ¸¶´õº¸µå Ĩ¼Â === CPU 0 === CPU 1

º¸µå ºí·°´ÙÀ̾î±×·¥ º¸¸é ¾Ë ¼ö ÀÖ½À´Ï´Ù¸¸

ÀϹÝÀûÀÎ µà¾ó¸¶´õº¸µåÀÇ ±¸Á¶»ó ù¹ø° CPU¿¡ ºÎÇÏ°¡ ´õ °É¸®±â¿¡ ù¹ø° CPUÀÇ ¿Âµµµµ ´õ ³ô°í ¸Þ¸ð¸® ¼Óµµµµ ´õ ³ô½À´Ï´Ù..

´Ü µÎ CPUÀÇ Â÷ÀÌ´Â ±×¸® Å©°Ô Â÷À̳ªÁö´Â ¾Ê½À´Ï´Ù.. (¾Æ¸¶ ¸¹¾Æ¾ß 10~15% Á¤µµ°¡ ¾Æ´Ò±î ÃßÃøÇغ¾´Ï´Ù)

E5-2600V3/V4 °¡ ³ª¿ÂÁö°¡ ²Ï ¿À·¡µÇ¾î ´ÜÁ¾µÈÁöµµ ²Ï µÇ¾î¼­ Àç´ë·Î µÈ º¸µå ã±â°¡ ½±Áö ¾Ê½À´Ï´Ù¸¸

°³ÀÎÀûÀ¸·Î´Â Áß±¹ ³»¼ö¿ëº¸µå´Â º¸µå¶ó°í »ý°¢ÇÏÁöµµ ¾Ê°í »ç¿ëÇÏÁöµµ ¾Ê½À´Ï´Ù..

°³ÀÎÀûÀ¸·Î ÁÁ¾ÆÇÏ´Â º¸µå´Â ¹Ì±¹Çâ¹ß º¸µå (ÀÎÅÚ, ½´ÆÛ¸¶ÀÌÅ©·Î, TYAN) Á¤µµ ÀÔ´Ï´Ù..
     
ikaros7 04-03
º¸½Ã´Ù½ÃÇÇ 40~60% Á¤µµ°¡ Â÷À̳ª°í À־¿ä.

Cpu mark ÃÑÁ¡Àº 30,800Á¡À¸·Î ASUS, ½´¸¶, HP Å×½ºÆ® °ªµé¿¡ µÚÃÄÁöÁö ¾Ê´Âµ¥, µü Àú Å×½ºÆ®¸¸ ÀÌ»óÇÏ°Ô ³ª¿Í¿ä. ¤Ì¤Ì

¿ä»õ´Â ¾Æ¹«·¡µµ ´ëÁ¶±ºÀ» ã±â´Â Èûµé°ÚÁÒ.
          
¹Ú¹®Çü 04-03
¸¸ÀÏ À̸§ÀÖ´Â Á¦Á¶»çÀÇ ¼­¹ö ½Ã½ºÅÛ¿¡¼­ »ç¿ëÇϽôø CPU¿Í ¸Þ¸ð¸® ±× ¿Ü ¼ÂÆÃÀ» ¶È°°ÀÌ (ÃÖ´ëÇÑ) ÇÏ°í

¶È°°Àº ÇÁ·Î±×·¥ µ¹·Á¼­ °á°ú°ªÀÌ Áß±¹»ê º¸µå¿Í ºñ½ÁÇÏ´Ù¸é ¹®Á¦´Â ¾ø´Ù¶ó°í ÇÒ ¼ö ÀÖÁö¸¸

±×·¸Áö ¾Ê´Ù¸é Áß±¹»ê º¸µå´Â ¾îµò°¡ ¹®Á¦°¡ ÀÖ°ÚÁö¿ä..

±×·¯³ª ±×·± Å×½ºÆ®¸¦ µ·µé¿©¼­ ÇÑ´Ù´Â °Íµµ ¿£µåÀ¯Á®¿¡°Ô´Â ½±Áö ¾Ê°í ³»°¡ º¸±â¿¡´Â ÀÌ·¡Àú·¡¼­ ¹®Á¦´Ù¶ó°í

Áß±¹ º¸µå Á¦Á¶»ç¿¡ À̾߱â Çصµ ±× ¹®Á¦¸¦ ÇØ°áÇØÁÙÁö´Â ¸ð¸£´Â ¹®Á¦ÀÔ´Ï´Ù..
               
ikaros7 04-03
ÀÏ´Ü Á¦Á¶»ç°¡ ÇØ°áÇØÁÙ (½ÉÁö¾î ¹®Á¦¸¦ È®ÀÎÇغ¼) ÀÇÁö°¡ ¾ø´Â°Ç È®½ÇÈ÷ ¾Ë¾Ò½À´Ï´Ù.

±×³ªÀú³ª ºÎÇÏ°¡ °É¸° ÂÊÀÌ ¾Æ¸¶µµ Ŭ·°ÀÌ ³ô°Ô À¯ÁöµÇ°í À־? ´õ ¹ÝÀÀÀÌ ºü¸¥°¡º¸±º¿ä. ¶Ç À¯¿ëÇÑ Á¤º¸¸¦ ¹è¿ö°¡³×¿ä. °¨»çÇÕ´Ï´Ù. ¤¾¤¾
                    
¹Ú¹®Çü 04-03
PCµµ ºñ½ÁÇÏÁö¸¸ º¸Åë ºÎÇϸ¦ ÁÖÁö ¾ÊÀ¸¸é CPU´Â ÀýÀü ±â´ÉÀÌ µ¿ÀÛÇؼ­ Ŭ·°µµ ³»·Á°¡°í ½Ã½ºÅÛÀÌ ´À·ÁÁö°Ô µÇÁÒ..

Á¦°¡ ´ñ±Û¿¡ ÀûÀº ¼Óµµ°¡ ºü¸£´Ù´Â °ÍÀº ºÎÇϸ¦ 100% ÁÖ¾úÀ»¶§ ¸Þ¸ð¸® µ¿ÀÛµµ µ¿ÀÛÇÒ ¼ö ÀÖ´Â ÃÖ´ë·Î µ¿ÀÛÇÑ´Ù´Â Àǹ̷Î

º¸½Ã¸é µÉ °Í °°½À´Ï´Ù..
Á¤¹«Çö 04-03
ÁÖ¸»Âë¿¡ ½´ÆÛ ¸¶ÀÌÅ©·Î º¸µå·Î Çѹø Å×½ºÆ®Çغ¸°Ú½À´Ï´Ù.
cpu´Â 2620 v4 ÀÔ´Ï´Ù.
     
ikaros7 04-03
°¨»çÇÕ´Ï´Ù!
Intel Memory Latency Checker·Î Å×½ºÆ® Çغ¸¼¼¿ä
     
ikaros7 04-04
Intel Memory Latency Checker¿¡¼­´Â Á¤»óÀûÀ¸·Î ´ëĪÀÎ °á°ú°¡ ³ª¿Ô½À´Ï´Ù.
PerformanceTest 11.0ÀÇ advanced memory test´Â NUMA node Å×½ºÆ®¸¦ Á¦´ë·Î ¼öÇàÇÏÁö ¸øÇÏ´Â °ÍÀ̾úÀ»±î¿ä?
ÇÑ´Þ ¹¬Àº üÁõÀÌ ³»·Á°¡´Â°Å °°½À´Ï´Ù. Á¤¸» °¨»çÇÕ´Ï´Ù!!

=======================================================================================================================================

Intel(R) Memory Latency Checker - v3.11
Measuring idle latencies for random access (in ns)...
                Numa node
Numa node            0      1
      0                91.8  125.6
      1              128.6    90.4

Measuring Peak Injection Memory Bandwidths for the system
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using traffic with the following read-write ratios
ALL Reads        :      126783.9
3:1 Reads-Writes :      122172.0
2:1 Reads-Writes :      121868.1
1:1 Reads-Writes :      114215.6
Stream-triad like:      107334.5

Measuring Memory Bandwidths between nodes within system
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
                Numa node
Numa node            0      1
      0        64761.6 16684.5
      1        16725.6 64444.8

Measuring Loaded Latencies for the system
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
Inject  Latency Bandwidth
Delay  (ns)    MB/sec
==========================
 00000  210.29  128318.6
 00002  210.81  128501.7
 00008  211.57  128222.4
 00015  211.70  128083.5
 00050  199.87  127241.8
 00100  183.51  125596.4
 00200  121.22    92607.0
 00300  110.09    63446.0
 00400  104.28    48124.2
 00500  100.70    38986.3
 00700  97.13    28266.5
 01000  97.98    19979.7
 01300  93.68    15644.0
 01700  92.60    12166.5
 02500  91.72    8513.3
 03500  91.03    6294.2
 05000  91.36    4614.1
 09000  91.05    2881.8
 20000  90.88    1685.7

Measuring cache-to-cache transfer latency (in ns)...
Using small pages for allocating buffers
Local Socket L2->L2 HIT  latency        39.7
Local Socket L2->L2 HITM latency        43.4
Remote Socket L2->L2 HITM latency (data address homed in writer socket)
                        Reader Numa Node
Writer Numa Node    0      1
            0                -    97.9
            1              98.5      -
Remote Socket L2->L2 HITM latency (data address homed in reader socket)
                        Reader Numa Node
Writer Numa Node    0      1
            0                -    98.2
            1              97.6      -

=======================================================================================================================================
          
ikaros7 04-05
Passmark Æ÷·³¿¡ ¸®Æ÷Æ®´Â Çߴµ¥ ¹ÝÀÀÀÌ ¾î¶³Áö ±Ã±ÝÇϳ׿ä. À½..
               
ikaros7 04-07
passmark Æ÷·³ °ü¸®ÀÚ´Â ¹ÝÀÀÀÌ ¾ø³×¿ä;;
Á¦ »ý°¢¿¡´Â performanceTest 11.0ÀÇ advanced > memory ... Å×½ºÆ®°¡ cache hit ¿µÇâÀ» ¹èÁ¦ÇÏÁö ¸øÇÑ°Ô ¾Æ´Ò±î? ½ÍÀºµ¥ ¸ð¸£ÁÒ. ¤¾¤¾
¿©ÇÏÆ° multi processor ½Ã½ºÅÛ¿¡¼­ PerformanceTest °á°ú´Â Ʋ¸± ¼öµµ ÀÖ´Ù Á¤µµ·Î ÂüÁ¶ÇÏ½Ã¸é µÉ °Í °°½À´Ï´Ù.
ikaros7 04-03
Çѹø Çغ¸°í °á°ú °øÀ¯ÇÏ°Ú½À´Ï´Ù.
¹Ú¹®Çü 04-03
¸Þ¸ð¸® Å×½ºÆ® ÇÁ·Î±×·¥ÀÎ memtest86 À» µ¹·Áº¸¸é ¸Þ¸ð¸® ¼Óµµ°¡ ³ª¿É´Ï´Ù..

UEFI ¸ðµå·Î µ¹¸®¸é ¸Þ¸ð¸® ¼Óµµ º¥Ä¡¸¶Å© Å×½ºÆ® Ç׸ñµµ ÀÖÀ» °ÍÀÔ´Ï´Ù..
     
ikaros7 04-03
±×°Íµµ Çѹø Çغ¸°Ú½À´Ï´Ù.
±Ùµ¥ memtest86µµ numa node º° º°µµ·Î Å×½ºÆ® °á°ú°¡ ³ª¿À³ª¿ä?
¹Ú¹®Çü 04-04
±×·¸°Ô ÀÚ¼¼ÇÏ°Ô´Â ¾È³ª¿É´Ï´Ù..

º¸Åë ½Ã½ºÅÛ 1´ë Àüü¿¡ ´ëÇÑ °Í¿¡ ´ëÇØ ³ª¿É´Ï´Ù..

memtest86À» ±¸±Û¸µÇÏ¸é »ç¿ë ¹æ¹ýÀ̳ª µ¿ÀÛÇÏ´Â ¸¹Àº »çÁøµéÀ» º¼ ¼ö ÀÖÀ» °ÍÀÔ´Ï´Ù..
     
ikaros7 04-04
Memtest86Àº ´Ù¸¥ ÄÄÇ»ÅÍ¿¡¼­ µ¹·Áº¸¾ÒÁö¸¸, µà¾ó ±¸¼º ½Ã½ºÅÛ¿¡¼­´Â µ¹·Áº» ÀûÀÌ ¾ø¾î¼­ ¿©Â庸¾Ò½À´Ï´Ù. ^^;


QnA
Á¦¸ñPage 106/5682
2014-05   4954237   Á¤ÀºÁØ1
2015-12   1490721   ¹é¸Þ°¡
04-03   735   Æ®´Ï¾Æºü
04-03   1115   Ä«ÀÌÁ¦¸°
04-03   1557   ¹«¾Æ
04-03   1691   sadzxczxc03
04-03   1351   ¹Ì´ã
04-03   955   VSPress
04-03   1041   °C°F
04-03   1384   ¾Ë¼ö¾ø´ÂÈû
04-03   1972   ikaros7
04-03   1010   VerVeine
04-03   1318   gusoong
04-03   1180   HEJYS
04-03   1299   ÇöÁø
04-04   1025   »ßµ¹À̽½ÇÄÀÌ
04-03   1134   Software1995
04-03   1281   Mjworld
04-03   1074   ¸®Àå´Ô
04-02   1099   ¿ö´Ï´Ô
04-02   793   °¡¼ººñ°¡ÁÁ´Ù
04-02   1198   À嵿°Ç2014