[환경]
H/W : Tyan S7050GM4NR , 2670 x 2 , ASR-71605 , 10G nic (Mellanox ConnectX-2), ZM850-EBT
, HDD ( HGST HMS5C4040AL 4TB x 8 RAID 5 , 웬디 그린 잡다하드 8개 :: 4 4 3 3 2 2 2 2 )
S/W : ESXi 6.0 (HDD관련 모든 드라이브 최신)
, 잡다하드 6개를 각각 개별로 RDM 만들어 VM 하나에 연결했습니다. 윈도우 8.1이고요.
[문제증상]
윈도우 8.1이 설치된 해당 VM에 RDM 으로 연결된 8개 HDD는 각각 하나씩의 파티션으로 네트워크 공유시켜놓고
10g 직결로 연결된 메인컴에서 다수의 파일을 수시간동안 복사하는 경우 어느순간에 행이 걸립니다.
첫번째 행 걸렸을때 - http://www.2cpu.co.kr/bbs/new_view.php?bo_table=freeboard_2011&wr_id=433180&qstr=
한번은 그러려니 했는데 좀전데 한번 더 그런 상황이 발생하여 이번에는 원인을 분석해 봤습니다
우선 vmkernel.log 로그 내용은 다음과 같습니다.
2016-02-23T17:30:27.394Z cpu5:33189)<3>aacraid: Host adapter abort request (1,1,10,0)
2016-02-23T17:30:27.394Z cpu5:33189)WARNING: LinScsi: SCSILinuxAbortCommands:1882: Failed, Driver aacraid, for vmhba2
2016-02-23T17:30:27.394Z cpu5:33189)WARNING: ScsiPath: 7151: Set retry timeout for failed TaskMgmt abort for CmdSN 0x0, status Failure, path vmhba2:C1:T10:L0
2016-02-23T17:30:29.396Z cpu5:33189)<3>aacraid: Host adapter abort request (1,1,10,0)
2016-02-23T17:30:29.396Z cpu5:33189)WARNING: LinScsi: SCSILinuxAbortCommands:1882: Failed, Driver aacraid, for vmhba2
2016-02-23T17:30:29.396Z cpu5:33189)WARNING: ScsiPath: 7151: Set retry timeout for failed TaskMgmt abort for CmdSN 0x0, status Failure, path vmhba2:C1:T10:L0
구글신에게 물어보니 하드웨어나 소프트웨어 문제일수 있다 라고 나와서 (쩝....)
msm을 확인해 봤더니.
운영중 디스크를 뽑은 것 처럼 되어 있습니다;;;
당연히 hdd는 멀쩡하게 잘 붙어있고 아무것도 손 안대고 재시작 하면 정상적으로 붙어 있습니다.
이게 처음이면 그 디스크가 문제라고 생각 했을텐데
지난번에 동일한 증상이였을때는 장애난 디스크가 Scsi Device ID 11번이였습니다.
그때와 지금은 공통점은 그때는 11번 디스크에 백업(다수의 파일 복사)중이였었고
지금은 10번 디스크에 백업중이였었다는 것이죠.
그리고 동일하게 오류가 바로 난건 아니고 지난번에 대략 복사시작해서 2시간 정도.. 지금...은 4시간 정도 복사도중에
저렇게 디스크 연결해제(?) 현상이 발생한 것이였습니다.
재부팅 하면 돌아옵니다. 마저 복사도 잘 되고요.
참고로 asr-71605의 온도는 50~55 사이입니다. (지금 복사 이어서 하고 있는데 49도네요 )
hdd들도 앞에 쿨러들이 다 있습니다. 아주 쌩쌩 돌아가고 있지요.
파워는 제조사(잘만)엔지니어가 확인해준 내용으로 hdd를 20개 까지 장착 가능하다 하였습니다.
현재 hdd 16 + ssd 2 = 18개로 2개 여유네요
도대체 뭐가 문제일까요 ?
ÄÉÀÌºí ¹®Á¦·Î Àǽɵ˴ϴÙ.
Á¤Ç°ÄÉÀ̺íÀΰ¡¿ä??
ÇÏµå °¹¼ö¿¡ ºñÇØ ÆÄ¿ö°¡ ¸ðÀÚ¸¦ È®·üµµ Àֳ׿ä..
ÆÄ¿ö ½ºÆ庸´Ï 5V /3.3V°¡ 25A°¡ ÃÖ´ë³×¿ä...
½´ÆÛ¸¶ÀÌÅ©·Î 8º£ÀÌ ±øÅëµµ 5V/3.3V´Â 30A±ÞÀε¥..
http://www.2cpu.co.kr/bbs/board.php?bo_table=hojak&wr_id=345&sca=&sfl=wr_name%2C1&stx=%B9%DA%B9%AE%C7%FC&sop=and
ÀÌ·± ±øÅëÀ¸·Î ¹Ù²Ù´Â °ÍÀÌ ¿©·¯¸ð·Î Á¤½Å °Ç°¿¡ À̷οö º¸ÀÔ´Ï´Ù.
raid 5·Î ¹ÀÎ 8°³ hdd´Â 5700rpmÀÌ°í¿ä
±×ÂÊÀº vmfs¿¡ ¾À 20t vmdk·Î Çì³î¿¡ ºÒ·ý»ý¼ºµÇ¾î °¡Àå ´ë·®À¸·Î ³×Æ®¿÷µå¶óÀ̺ê·Î ¿©·¯¹ø º¹»çÀÛ¾÷ÀÌ ÀÖ¾ú´Âµ¥ Çѹøµµ Àå¾Ö ¾ø·¶°í¿ä.
³ª¸ÓÁö Àâ´ÙÇÑ À¢µð ±×¸° hddµéÀº ÀüºÎ 5400rpm ÀúÀü·Â hddµé·Î¼
ÀÌÂÊ°í raid 1À¸·Î ¹Àº 2t µÎ°³ ¿ª½Ã ´ë·®º¹»ç ¹®Á¦ ¾ø¾ú½À´Ï´Ù.
Àú¹ø°ú À̹ø¿¡ ¹®Á¦°¡ »ý±ä°Ç ¾Æ´äÅØ¿¡¼ raw·Î Àâ°í
esxi¿¡¼ rdmÀ¸·Î Àâ°í À©8.1¿¡¼ ±×´ë·Î ntfs·Î ¿¬°áÇؼ ³×Æ®¿÷µå¶óÀ̺ê·Î º¹»çÇÏ´Â °æÀ¯ ²À ¹®Á¦°¡ »ý±â´Â ±º¿ä... ¹Ù·Î´Â ¾Æ´Ï°í ¸î½Ã°£ µ¿¾È º¹»çÇÏ´Ù º¸¸é¿ä.
¸»¾¸ÇϽŴë·Î À¯·ÂÇÑ ¹üÀÎÀº Àü¿øÀϲ¨ °°±ä Çѵ¥¿ä.
¾Æ´äÅØ ·Î±×´Â ¾î¶»°Ô »Ì³ª¿ä ? ÀÌ°Í ºÎÅÍ Ã£¾ÆºÁ¾ß°Ú±º¿ä..
esxi¿¡¼ À¢µð ±×¸°ÀÌ vmfs¸¶¿îÆ® Çϸé 3mb/s°¡ ³ª¿Í¼ rdmÀ¸·Î ºÙÀΰǵ¥ (rdmÀº Á¤»ó ¼Óµµ) esxi°¡ À¢µð ±×¸°À» ¾öû ½È¾îÇϴ°Š°°±âµµ Çϳ׿ä;;;
À¢µð ±×¸° ´ë±â ¸ðµå ±æ°Ô ÇϽôøÁö
Àü¿ø ÀǽÉÇϽôøÁö
·Î±×´Â À©µµ¿ìÁî¿¡¼ °ü¸® À¯Æ¿À» ¼³Ä¡ÇÏ°í ³ª¼ »ÌÀ»¼ö Àִµ¥ °ø½Ä ¼öÀÔ¿øÀÎ ¾ØµðÄÚ È¨ÆäÀÌÁö ±â¼úÁö¿ø¶õ¿¡ º¸½Ã¸é ¾Ë ¼ö ÀÖÀ» °ÍÀÔ´Ï´Ù.
°ü¸® À¯Æ¿¸¸ Àß º¸¾Æµµ ¸ð°¡ ¹®Á¦ÀÎÁö ´ë·« ³ª¿Ã µíÇÕ´Ï´Ù.
arcconf getlogs 1 event
arcconf getlogs 1 uart
ÀÌ µÎ ¸í·É¾î¿¡ ´ëÇؼ´Â ¹ÝÀÀÀÌ ÇÑÂüµ¿¾È ¾ø´Ù°¡
CIM Exception: Timeout (or other socket error) waiting for response from provider.
ÀÌ·¸°Ô ³ª¿À´Âµ¥ ¹º°¡ ½É»óÄ¡°¡ ¾ÊÀº °Í °°³×¿ä;;;
esxi ¸¦ ÅëÇؼ »Ì¾Æ¼ ±×·±°É±î³ª¿ä.....
¸ÞÀÎÄÄ¿¡µµ asr-71605°¡ ´Þ·ÁÀִµ¥ ¿©±â´Â ÀüºÎ ·Î±× ´Ù »Ì¾ÆÁö°í ³»¿ëµµ ÀßÀº ¸ð¸£°ÚÁö¸¸ ÀÌ»óÀÌ ¾ø¾î º¸ÀÔ´Ï´Ù.
¿À´Ã ¹ã¿¡ À¢µð Àâ´Ù ÇϵåµéÀ» ´Ù ¶¼°í ´Ù½Ã ·Î±× »Ì±â¸¦ µ¹·ÁºÁ¾ß°Ú³×¿ä.
±×³É Àâ´Ù À¢µð ±×¸° ÇϵåµéÀº º°µµ·Î ¹é¾÷¼¹ö ±¸¼ºÇؼ ¿Å±â´Â°Ô ºü¸¦Áöµµ ¸ð¸£°Ú³×¿ä. ÀÌ°Å ¿µ ºÒ¾ÈÇؼ ¿ø....