안녕하세요. A100 40G에서 첨부된 파일의 메시지와 같이 나타나는 현상이 무엇인지 문의 드립니다.
사용중인 서버에서 A100 40G
- 로그 기록 중 마지막 라인에 ECC error 발생
- Gpu 사용량 확인을 위해 `nvidia-smi` 명령어를 사용해서 확인
- ECC 값이 0에서 1로 증가
- ECC 관련 기록은 `nvidia-smi -q` 명령어를 사용해서 확인
- ECC 쪽 SRAM부분에서 Error Count 증가
- 드라이버 문제인 것 같아 재설치 및 재부팅 후에 테스트 시도
- 같은 Error 발생
- ECC를 비활성화 후 테스트 시도
- 같은 Error 발생
ERROR 발생전에는
nvidia-smi -q를 입력 하면
메시지가 나타 났다고 하였고
Error 발생 후
nvidia-smi -q를 입력 하면
ECC Errors
SRAM Correctable 1 / SRAM Uncorrectable SEC-DED에서 1
그리고 SRAM Uncorrectable SEC-DEC 12
SRAM SM 12가 표시되는데 무엇을 의미 하는것인지요?
혹시 몰라서 장비 바꿔서 에서 테스트 했을때는 nvidia-smi -q를 입력 하면
에레 메시지는 없고
SRAM Uncorrectable SEC-DEC 12 / SRAM SM 12표기만되고 있습니다.
해당 메시지가 의미 하는것
고수님들 해당 내용 부탁 드립니다.
ÀÚ¼¼ÇÑ °ÍÀº ¿£ºñµð¾Æ¿¡ ±â¼úÁö¿ø ¹ÞÀ¸½Ã°í ±³Ã¼ °¡´ÉÇϸé Ä«µå ±³Ã¼Çϼ¼¿ä..
A/S ½ÅûÇغ¸¼¼¿ä.
Ȥ½Ã A100 40G ¼ö¸® °¡´ÉÇÑÁö¿ä?
±×³É Ä«µå ±³Ã¼ ¹ÞÀ¸¼¼¿ä
The NVIDIA Field Diagnostic tool determines whether a GPU qualifies for RMA. Regarding row-remapping failures, the RMA criteria is met when the row-remapping failure flag is set and validated by the field diagnostic. Any of the following events will trigger a row-remapping failure flag:
- A remapping attempt for an uncorrectable memory error on a bank that already has eight uncorrectable error rows remapped.
- A remapping attempt for an uncorrectable memory error on a row that was already remapped and can occur with less than eight total remaps to the same bank.
- After 512 total remappings for an uncorrectable memory error have occurred.
The row-remapping failure flag is available through in-band (NVML/nvidia-smi) and out-of-band (SMBPBI) tools.
RMA ±³Ã¼ ´ë»ó À̳׿ä.
PCIe Type »Ó¸¸ ¾Æ´Ï¶ó DGX SXM Typeµµ ÃæºÐÈ÷ ¹ß»ýÇÕ´Ï´Ù..
±¸¸Åó¿¡ ·Î±× º¸³»¸é ¹Ù·Î RMA ½ÂÀÎ ³¯²®´Ï´Ù.