안녕하세요. A100 40G 설치 후 문의 사항이 있어 글 올립니다.
ubuntu 22.0.4 버전 / 24.04 버전에서
A100 40G 설치 후
nvidia-smi 체크를 하면
아래와 같이 아무것도 사용하지 않았는데 GPU-Util 37%를 사용하고 있습니다.
또한 사용하지 않는데도 온도가 74C까지 올라가구요.
ps aux | grep --color=auto pyton 입력하면
아래와 같은 내용이 나오는데 무엇이 문제인지 문의 드립니다.
gpu - utilㅣ를 해결하면 gpu 온도가 해결되는지도 같이 문의 드립니다.
ÇöÀç ½ºÅ©¸°¼¦ »óȲ¸¸ º¸¸é, ½ÇÁ¦ GPU¸¦ Á¡À¯ÇÏ´Â ÇÁ·Î¼¼½º°¡ ¾ø´Â °ÍÀÌ Á¤»óÀ¸·Î º¸ÀÔ´Ï´Ù.
ps ¸í·É °á°ú¿¡¼ º¸ÀÌ´Â °ÍÀº grep ÇÁ·Î¼¼½º ÀÚ½ÅÀ̹ǷÎ, ½ÇÁ¦·Î µ¹¾Æ°¡´Â Python ÇÁ·Î¼¼½º(GPU »ç¿ë ¿©ºÎ)¿Í´Â ¹«°üÇÕ´Ï´Ù.
º¸Åë ¾Æ¹«°Íµµ ÇÏÁö ¾ÊÀ» ¶§ GPU-UtilÀÌ 0%~10% ¹Ì¸¸À¸·Î À¯ÁöµÇ´Â °ÍÀÌ ÀϹÝÀûÀÌ°í. 37%´Â ²Ï ³ôÀº ÆíÀ̸ç, 74¡Éµµ ¡®¾ÆÀ̵é(idle) »óÅ¡¯¶ó°í º¸±â¿¡´Â ´Ù¼Ò ³ôÀº ¿ÂµµÀÔ´Ï´Ù(´Ü, ¼¹ö¿ë Æнúê Ä𸵠GPU¶ó¸é ¾î´À Á¤µµ °¡´É¼ºÀº ÀÖ½À´Ï´Ù).
µ¡±Û ¿ë·® Á¦ÇÑÀ¸·Î, ÀÌ¾î¼ ´Þ°Ú½À´Ï´Ù
µ¥½ºÅ©Åé ȯ°æ(¿¹: GNOME, KDE)ÀÌ µ¿ÀÛ ÁßÀ̶ó¸é, GPU°¡ ·»´õ¸µ ¿ëµµ·Î ¾î´À Á¤µµ Á¡À¯ÇÏ°í ÀÖÀ» ¼ö ÀÖÀ½
sudo fuser -v /dev/nvidia* ¶Ç´Â lsof /dev/nvidia*·Î /dev/nvidia µð¹ÙÀ̽º¸¦ »ç¿ëÇÏ´Â ÇÁ·Î¼¼½º°¡ ÀÖ´ÂÁö È®ÀÎ
--
nvidia-smi¿¡ ¡®No running processes found¡¯¶ó°í Ç¥½ÃµÇ´õ¶óµµ, X ¼¹ö³ª ÀϺΠ½Ã½ºÅÛ µ¥¸óó·³ nvidia-smi¿¡¼ Àß Ç¥½ÃµÇÁö ¾Ê´Â ÇÁ·Î¼¼½º°¡ GPU¸¦ »ç¿ëÇÏ´Â °æ¿ì°¡ ÀÖ½À´Ï´Ù.
¿¹) GUI ȯ°æ(µ¥½ºÅ©Åé), VNC/¸®¸ðÆ® µ¥½ºÅ©Åé, ¶Ç´Â CUDA ÀÌ¿ÜÀÇ ¶óÀ̺귯¸®·Î GPU¸¦ »ç¿ëÇÏ´Â ÇÁ·Î¼¼½º
sudo nvidia-smi -pm 1 (Persistence Mode on) ȤÀº ¹Ý´ë·Î -pm 0À¸·Î ¹Ù²ã°¡¸ç, GPU°¡ Á¤»óÀûÀ¸·Î Ŭ·° ´Ù¿î(idle ½Ã Ŭ·° ³·Ãã)À» ÇÏ´ÂÁö ½ÇÇè
GPU°¡ °Á¦·Î ¡®Maximum Performance¡¯ ¸ðµå·Î °íÁ¤µÇÁö ¾Ê¾Ò´ÂÁö, Xorg ¼³Á¤À̳ª NVIDIA µå¶óÀ̹ö ¼³Á¤(nvidia-settings) µîÀ» Á¡°Ë
--
ÀÌ·¡µµ ¾Æ¹«°Íµµ ¾È ³ª¿Â´Ù¸é, Ä𸵠½Ã½ºÅÛÀ» Á¡°ËÇغ¸½Ã´Â °ÍÀ» ±Ç°íµå¸³´Ï´Ù.
´©±º°¡ ¶Ç´Â ¾î¶² ÇÁ·Î±×·¥ÀÌ »ç¿ëÇÏ°í ÀÖ´Ù°í º¸¿©Áý´Ï´Ù.