멜라녹스 인피니밴드 작동하지 않습니다.

bangCH   
   조회 5602   추천 0    

안녕하십니까... 질문좀드립니다.

인피니밴드 장착된 서버가 예전부터 잘쓰다가 갑자기 안되서 ifconfig 확인해보니 



running 이 없어서  ifdown ib0 ,ifup ib0 해봐도 안되고 인피니밴드 멜라녹스 드라이버 깔면 성공적으로 설치되었다고 뜨고 

다시 ifconfig 치면 running없고 


작동이 안되서 질문드립니다... 왜 이런걸까요 ....


아래는 기타확인 이미지입니다..












안녕하세요 반갑습니다
짧은글 일수록 신중하게.
박문형 2020-10
잘은 모르겠지만

드라이버나 OS인식은 문제가 없고 실제로 데이터 전송이 안되는 것인 듯합니다..

카드가 아마도 광으로 데이터를 전송할 텐데 광트렌시버가 고장나고 메인칩셋이 멀쩡하면 그럴 수 있다고 생각합니다..

예비 카드가 있으면 그것으로 바꾸어보시던지 다른 서버에 동작이 정상이고 똑같은 카드가 있으면 바꿔 꼽아보아서 비교해보세요..

그 외 케이블 접촉 불량 같은 것도 의심해보세요..
     
bangCH 2020-10
네 저도 케이블 접촉 부분이 이상하다 생각합니다.
인피니밴드 총판 업체쪽에 문의한 결과
드라이버 새로 올리는 것은 무의미하고 주로 하드웨어 이슈가 크다고 하시더라구요 새 인피니밴드카드랑 케이블 준비해서 현장에서 확인해야될것 이 방법 밖게 없다고 하시네요 ... 결과가 나오면 공유차원으로 글올릴게요
          
김황중 2020-10
"새 인피니밴드카드랑 케이블 준비해서 현장에서 확인해야될것 이 방법 밖게"

이런 as가 어딨나요?
물건 총판서 구입한것이면 총판은 as처리 원칙되로 하면 되는데...

무슨 인피니벤드 총판이 구멍가게도 아니고
이러식으로 얘기했다면 막장이네요


참고로 소프트웨어가 깔린 장비의 파트가 관계된 문제 발생시는
고객이 궁합을 확인할 필요없이
As센타 전화하셔서 않되요 하시면 끝입니다
괜히 아는체 하면 지네 파트 문제인데 고객한데 그 원인분석을 시키죠
               
bangCH 2020-10
저도  제가 처리할수 있는 선에서 해결해볼려구 어떤 명령어로 상태확인하고, 인피니밴드 로그확인 할수 있는 경로, 인피니밴드 문제발생시 원격으로 처리한 이력이 있는지 등등 물어봤는데 원격으로 확인할수 있는 액션은 없고 직접 현장에서 확인을 해야된다 얘기만 하시더라구요 그래서 뭐... 그쪽 분야 많이 하신분이라 믿을수 밖게요
술이 2020-10
10G 겸용 지원되는 카드인가요? 아니라면 IB는 네트워크 이더넷 프로토콜로 사용하는게 아닐건데요.
     
bangCH 2020-10
인피니밴드 장착된 다른서버에 ethtool ib0 명령어로 확인해보니 여러 내용들이 나와있고    안되 서버에서 해당 스샷처럼 나와 비교확인을 했었습니다.

100g 인피니밴드인데 거기까지는 모르겠네요 ;; 인피니밴드가 이더넷프로토콜을 사용안하는 것도 몰랐습니다. 혹시 인피니밴드 사용상태를 알수 있는 명령어가 있으신지요 ?
epowergate 2020-10
일단 HCA 문제는 아닌것 같습니다. 
HCA에 문제가 있으면 self test에서 바로 표 납니다.
Device Driver도 정상으로 설치 된것 같습니다.

ipoib는 ethtool로 안보일 텐데요

4가지 중에 문제가 있을텐데
1. sm에서 보이는지 확인
2. HCA NIC과 OFED간의 FW 상의한 경우
3. self test에 Link가 없다고 나오는데 이게 꼭 cable 문제를 뜻하진 않습니다.  HCA에 불 들어오는지 확인.  만약 불 들어오면 CABLE 문제는 아닙니다 (만 이것도 FW 다르긴 합니다).

예전에 사용하셨던 서버라고 하셨으니 SM에 보면 언제-왜 끈어졌는지 LOG가 있을 겁니다.  거기서 시작하셔야 합니다.
     
bangCH 2020-10
답변 정말 감사합니다.

1. 해당서버 opensm는 무조건 stop해야된다고해서 건들수가 없네요 opensm이 해당 네트워크에 한쪽만 서비스해야된다고 들었는데 .... 잘모르겠습니다

2.  제가 인피니밴드를 깊게는 모르는데 OFED랑 HCA가 뭔지 알려줄수있나요 ? ( 구글링해서 찾아보겠습니다 )

3. 현재일정방문 FIX되면 그때 참고해 해보겠습니다 ( SM과 관련 로그파일 찾아보겠습니다. )

어우 .. 어렵네요
          
epowergate 2020-10
sm은 전체 network에 1개 이상 있으면 됩니다.  2개도 상관은 없습니다.
OFED는 Driver/FW/각종 유틸들 모아놓은 그넘들 이구요 (님께서 device driver라고 생각하고 설치하신 그거요)
HCA는 흔히 "인피니밴드카드" 라고 불리는 그겁니다.
그런데 그냥 Linux에 있는 Device Driver사용하시지 왜 굳이 OFED를 설치하셨을까요?  Kernel에 있는거 그냥 하용하는거 추천드립니다.
bangCH 2020-10
현장가서 조치해본 결과 인피니밴드 케이블 선의 문제였습니다. 
다들 답변해 주셔서 너무 감사합니다 !!!


QnA
제목Page 2613/5708
2015-12   1675654   백메가
2014-05   5140999   정은준1
2016-06   5456   빡시다
2015-08   5456   회원K
2006-11   5456   이대희
2007-05   5456   임강평
2009-02   5456  
2019-09   5456   딸기대장
2016-04   5456   안규민
2018-06   5456   악마라네
2018-04   5456   명성호
2008-01   5456   노하석
2009-04   5455   정용관
2016-03   5455   딩굴이
2017-07   5455   sungsung
2005-11   5455   임현규
2016-08   5455   로트1
2015-05   5455   송봉근
2012-01   5455   최시영
2016-09   5455   김준유
2005-12   5455   박종대
2006-06   5455   김창락