[Dell서버] 혹시 이런상황 겪어보신분 있으신가요..?

   조회 3891   추천 0    

최근에 점검하다가 발생한 상황인데.. 처음겪는 일이라 당황스럽네요 ㄷㄷ

Dell R440 모델에

CPU는 제온 골드 5222 4코어 * 2

메모리 32G

디스크 1.2TB 2개에 레이드1로 묶어서 쓰고있습니다.


이게 문제가.. CPU 점유율이 어느순간 보니 7~80%를 찍고있더라구요

평소 많아야 2~5%인데.. 올라가있는 서비스 전부 disable시키고 재부팅 시켜봤습니다.

재부팅 후 nmon으로 cpu 상태를 봤는데

???

CPU1번만 미친듯이 돌아가고 있네요(재부팅 직후 상황입니다 저게)

top로 프로세스를 봐도 많아야 0.3?밖에 cpu점유를 안하는데.. 왜저러는지 모르겠습니다 ㅠㅠ


idrac 로그를 봐도 전부 정상인걸로 나오고.. 희안하네요 참

조만간 바이오스랑 idrac 펌웨어 올려보고 CPU 스왑도 한번 해볼 예정입니다.


이런 비슷한 상황 겪으신분 계신가요? 있으시면 어떻게 조치했는지 궁금합니다.


++

저때 찍었던 top사진입니다



짧은글 일수록 신중하게.
박문형 2022-08
서비스 중인 시스템이라 쉽지 않습니다만

데이터 백업 하고

다른 디스크에 OS 다시 설치해서 네트워크 다 끊어버리고 문제 되는 부분을 다시 확인해보겠습니다..

혹시나 지만 해킹 당해서 좀비 시스템이 되어서 저렇게 CPU 부하가 높을 수도 있거든요..

nmon 쓰시는 분 이 사이트에서 들락날락 한지 20년 넘어갔는데 거의 처음 만에 뵙네요..
     
nelson1945 2022-08
답변 감사합니다~
헉 nmon은 이제 잊혀진 유물이 된건가요? ㄷㄷ 예전에 AIX만질때 꽤 잘써먹어서.. 지금도 간간히 쓰네요 ㅎㅎ
          
박문형 2022-08
제 거래처 쪽에서 몇 년전에 nmon 으로 테스트 하시는 것을 이메일에 들어 있는 사진으로 알았는데  테스트 하신 분 연세가 거의 60 대..

저는 첨에 저게 몬가 하다가 어찌저찌 아는 사람한테 이야기 하다가 명칭을 알게 되었습니다..

저는 저것이 대략 무엇인지는 알고 실제 다루지는 못합니다..

조금 만지는 것이 윈도우즈 정도인지라..

IBM AIX 도 사용하는 곳은 있지만 거의 유물급 아닌가요??
               
nelson1945 2022-08
맞습니다 ㅠㅠ
AIX는 금융권쪽에만 남아있는걸로 알고있습니다
                    
허어 2022-08
금융권 아니라도..아직 돌아가는데..좀.. 있습니다....
          
dateno1 2022-08
bashtop 써보니 조금 더 편하고 깔끔해서 자주 쓰게되네요
epowergate 2022-08
CPU가 0%인거 보니까
뭔가 채굴하는 봇이 들어온것 같습니다.
보통 이런 넘들이 잘 만들어져서 모든 core 사용하는데 이 넘은 좀 특이하네요
     
nelson1945 2022-08
CPU로도 채굴이 가능한건가요?ㄷㄷ
코인채굴방식을 제가 잘 몰라서요 ㅠ
GPU만 쓰는건줄 알았는데.. CPU로도 가능한 모양이군요;
채굴걸린거면.. 싹 밀어버리고 재설치해야 할수도 있겠네요;
          
epowergate 2022-08
GPU가 효율이 더 좋아서 GPU를 사용하죠 CPU로도 당연히 가능합니다.
내 PC에서 라면 하지 않겠지만 남의 PC라면 할 수 있죠
          
dateno1 2022-08
CPU로만 채굴되는것도 있었던것같아요
박문형 2022-08
만일 봇이라면 자기가 침투했다는 티를 최대한 안내고 시스템 조금 느려졌어라고 관리자가 느낄 수 있게 만들어졌을지도 모르죠..
구차니 2022-08
1~8번 cpu가 100% 아닌가요?
top은 어떻게 나오나요?
     
nelson1945 2022-08
top으로 봐도 점유율이 높아보이는 프로세스는 안보이더라구요;
0.7, 0.3 0.3 0 0 0... 제일 높은게 0.7정도였습니다.
글 수정해서 top사진도 추가해볼께요
박문형 2022-08
https://developer.ibm.com/articles/au-nmon_analyser/

nmon의 유래???

http://nmon.sourceforge.net/pmwiki.php

리눅스용 nmon

이 프로그램 리눅스에 설치해서 돌려보면 시스템의 여러 부분의 모니터링이 가능합니다..

좀 색다른 맛이라고나 할까??
     
nelson1945 2022-08
네 맞습니다. 깜빡하고 OS를 안적었었네요;
CentOS 7.7이라서 말씀해주신 리눅스용 nmon으로 확인한겁니다 ㅎㅎ
박문형 2022-08
만일 저 증상이 봇 프로그램이나 기타 악성 프로그램에 의해 나타난다고 하면  쉽지 않지만 보안에 좀 더 신경 쓰셔야 할 듯합니다..

그리고 혹시나 nmon 의 버그 같은 것 일수도 있으니 그런 것을 체크할 수 있는 다른 프로그램으로 체크를 좀 더 해보고 비교하시던지

Top 명령어와 비교하시던지 해보는 것이 좋아 보입니다..
     
nelson1945 2022-08
nmon, top, iostat, mpstat 명령어로 조회 해봤는데 전부 동일하게 cpu 사용량이 50%이상으로 보입니다 ㅠㅠ 차라리 말씀하신것처럼  버그였으면 하는 바램이..ㅠㅠ
          
구차니 2022-08
top 에서 50% 이상 뜨면 실제로 사용하는 것 같은데
top에서 load average와 cpu의 us (user) sy(system) 값이 어떻게 나오나요?(첫째 줄 셋째줄 입니다)

$ top
top - 18:16:14 up 19 days,  4:38,  4 users,  load average: 0.01, 0.04, 0.08
Tasks: 192 total,  1 running, 191 sleeping,  0 stopped,  0 zombie
%Cpu(s):  0.0 us,  0.2 sy,  0.0 ni, 99.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
               
nelson1945 2022-08
load average는 7.13 2.68 0.98로 보이네요 내일 한번더 확인해봐야 알겠지만 위 스샷보다 더 높아져있을거에요..
          
죠슈아 2022-08
top은 7.13 인데 왜 50% 라고 하시는 거죠?

댓글 중간에서는
0.7, 0.3 0.3 0 0 0... 제일 높은게 0.7정도였습니다.

라고  하시다가 ...  ㅎㅎㅎ
               
nelson1945 2022-08
50%는 cpu사용량이 50%라는 뜻이였습니다

0.7 0.3 0.3 0 0 0 의 의미는 각 프로세스 cpu사용량을 나열한겁니다. load average를 뜻한게 아닙니다..
                    
죠슈아 2022-09
top 에서는 각 프로세스  cpu사용량을 0.7 0.3 0.3 0 0 0 으로 나오는데  어떻게 cpu사용량이 50%라고 할 수 있나요?
박문형 2022-08
문제 있는 서버에서 랜선을 뽑았을때 (네트워크를 단절시켰을때 ) 계속 부하가 걸리면 무슨 프로그램이 그랬는지 확인 절차가 필요할 듯합니다..

그리고 (제가 맨 처음에 댓글 올렸을때 )네트워크 끊고 OS 새로 깔아서도 그런다면 그 때는 프로그램이나 그런 쪽의 버그 확률이 높아집니다..

OS 새로 깔았다면 저런 부하는 없어야 정상이니까요..

그리고 상황에 따라 무슨 서비스를 하는 서버인지도 오픈해야 될지 모르겠네요..
구차니 2022-08
오래전 글이긴 합니다. 세부 내용은 봐야 할 것 같습니다.
https://www.ibm.com/mysupport/s/question/0D50z00006LKtboCAD/cpu-usage-differences-between-nmon-and-topas-38-vmstat?language=ko

12 Jun 2007 (15년 전)
There are 2 things that I know of that cause NMON to report different CPU usage stats than topas and vmstat. I believe these are design decisions in NMON rather than bugs.
The first thing is SMT. I was at a presentation that Nigel gave and he discussed the difficulties that SMT posed in determining what 100% was for a Power5 core/cpu. When SMT is turned off, the system sees 1 logical CPU for each physical (or virtual in micropartition LPARs) CPU. Lets assume that 1 logical CPU can perform 100 units of work. When it is doing 100 units of work, it is 100% busy.
구차니 2022-08
top에서 load average가 높게 나오는걸 봐서는 모종의 방법으로 프로세스를 숨긴채 작동시키는 프로그램이 있는게 아닌가 생각됩니다.

https://www.cyberciti.biz/faq/linux-hide-processes-from-other-users/
     
nelson1945 2022-08
채굴가능성이 점점 높아지네요 ㅠㅠ 아랫분 방법 한번 써보고 안되면 OS 재설치까지 가봐야겠습니다..
dateno1 2022-08
새로 안 깔아도 리눅스 디스크로 라이브 부트같은거 하면 감염 여하 확인됩니다

기본 읽기 전용으로 이미지 읽어와서 램에서 처리하기땜에 깔끔한 환경이고, 부트 미디어만 분리하면 원복되기땜에 큰 부담도 없습니다 (그동안 서비스 중단되는건 참아야죠)
nelson1945 2022-08
회원님들 답글 감사합니다!
dateno1회원님 방법 시도해보고 안되면 OS재설치까지 진행해보려고 합니다. 끝나면 결과 공유드리겠습니다 ^^
비비BB 2022-09
저 같은 경우는 컴파일 속도가 너무 느려서 확인해본 결과 아래와 같습니다.. (i9-10850K, CPU 0 ~ 10 100% 점유, 11 ~ 19 점유 없음)
top 으로 보면 kswapd0 라는 이름으로 CPU 점유율이 100% 유지하고 있어서 kill -9 kswapd0  처리
user 상태에서 crontal -l 처보면 아래와 같은 목록을 확인했습니다.
1 1 */2 * * /home/xxx/.configrc/a/upd>/dev/null 2>&1
@reboot /home/xxx/.configrc/a/upd>/dev/null 2>&1
5 8 * * 0 /home/xxx/.configrc/b/sync>/dev/null 2>&1
@reboot /home/xxx/.configrc/b/sync>/dev/null 2>&1
0 0 */3 * * /dev/shm/.X09/.rsync/c/aptitude>/dev/null 2>&1
crontab 에 있는 내용 삭제
/home/xxx/.configrc 폴더 삭제
/dev/shm/.X09/ 폴더 삭제 후 1달 동안 현재 문제가 없습니다.

저와는 다른 상황이겠지만 이런 경우도 있었다는 것을 참고해주세요.


QnA
제목Page 4386/5708
2014-05   5143824   정은준1
2015-12   1677968   백메가
2015-02   3665   BTclub
2015-12   3665   무아
2016-01   3665   초코우유
2018-01   3665   김건우
2017-06   3665   두발로
2018-09   3665   성기사
2015-05   3665   겨울나무
2016-03   3665   sffbig
2018-07   3665   H4CHI
2019-08   3665   여우pc
2021-01   3665   파리대왕
2018-12   3665   민사장
2017-10   3665   두cpu
2018-03   3665   DoubleSH
2018-03   3665   두cpu
2020-07   3665   lemh
2019-04   3664   작은악마
2014-08   3664   inquisitive
2020-06   3664   서울I김동수
2016-01   3664   나파이강승훈