[VMWare] VSAN 트래픽이 포트 한쪽으로만 흐르는거 같습니다.

osthek83   
   조회 23219   추천 0    

 VSAN 설정할때 업링크 2개를 active active 로 설정했는데도 불구하고, 스위치쪽에서 트래픽을 확인해 보면 한쪽으로만 흐릅니다..그 한쪽으로 트래픽이 어쩔때는 몰려서 

스위치쪽 포트에서 확인해 보면 output discard 현상이 일어납니다... 한쪽으로만 흐르는거 정상인가요?? 아니면 설정할때 뭔가 특별히 건들어야 하는게 있는지 궁금합니다. 회사에서 vsan 도입처음이라 시스템 쪽 담당하시는 분은 그냥 메뉴얼보면서 설정하셨다고 하셔서요. 특별히 설정자체가 어려운건 없었다고 하셨거든요..


P.S 현재 설정된 상태 캡쳐한거 올립니다.



흥마 2023-06
VVD(VMware Validated Design) 문서 내용이 다 기억 안 나는데, 대충 기억 나는 내용으로는
- VSAN의 Uplink을 하나만 사용 하는 것을 권고 하고, 트래픽이 너무 많을 때 2개를 사용 (1개와 여러 개 사용시의 장단점 정리와 대충 어느 정도 일때 여러개 사용 내용이 문서로 되어 있습니다.)
- 현재 Teaming 정책이 Route based on orininaing virtual port 으로 되어 있을 것으로 예상 되며, Route based on orininaing virtual port은 A/S으로 해야 된다고 기억 합니다.
- A/A 으로 사용 하기 위해서는 Route based on IP hash 와 Route based on physical network adapter load 가 있는데, 특히 IP hash는 성능 이점이 없을 수도 있습니다. (VSAN 운영 중에 Teaming 정책 바꾸는 것은 스위치 설정 및 단절이 발생 될 수 있으니 모든 VM 종료 상태에서 해야 합니다.)
- 상단 물리 스위치의 spaning-tree 설정에 따라서 VSAN 가상스위치 설정이 다름.
- 기타 등등...

VMware 하시는 분들 중에서 일반 문서만 보고 VVD 문서을 안 보고, 또는 Network 잘 모르시느 분들이 많이 있어서 이런 저런 문제가 생기는 경우가 많습니다.
담당자분께 Teaming, Spanning-Tree, Network 구성(ex. IP hash)에 따른 VSAN 구성이 맞는지 확인 해 달라고 하세요.
     
osthek83 2023-06
답변 너무나 감사합니다. 예상하신대로 Teaming 정책이 Route based on orininaing virtual port 으로 되어 있습니다. 실무에서 A/A 사용하기 위해서는 보통 Route based on physical network adapter load  사용하시나요??
     
osthek83 2023-06
말씀하신 자료를 찾은거 같습니다 https://docs.vmware.com/en/VMware-vSphere/7.0/com.vmware.vsphere.vsan-planning.doc/GUID-031F9637-EE29-4684-8644-7A93B9FD8D7B.html
일단 설정에 문제가 있는거 같으니, 내일 담당자와 이야기 해보도록 하겠습니다 ^^
          
흥마 2023-06
Failover & back 설정 내용도 참고 하셔야 합니다.
위에 언급 해 드린 STP에 대한 내용도 있으며, beacon 설정 등 세부 사항들이 있습니다.
https://docs.vmware.com/en/VMware-vSphere/7.0/vsan-network-design-guide/GUID-4ECAF913-95E6-4A7C-89A7-BF06DC03F18C.html

A/A을 사용 하기 위한 정책 결정은 상단 스위치에서 권고 하는 수준에서 거의 결정 됩니다.
               
osthek83 2023-06
Teaming 정책을 변경했는데도 불구하고 계속 트래픽이 한쪽으로만 흐르네요. 스위치쪽에서는 stp 로인한 포트 블락은 없습니다...당황스럽네요 ㅡ,ㅡ;
혹시 몰라서 설정 캡쳐한것을 원문에 첨부하였습니다.
                    
흥마 2023-06
Route based on Physical NIC load는 30초마다 트래픽을 확인 하는데, 75% 이상 사용 할 경우 다른 NIC을 추가로 사용 합니다.
참고로 LACP 처럼 동시에 트래픽이 분산 되어서 처리 하지 않습니다.!!! End-To-End  연결 포인트를 분산 하는 것 입니다.
예. Host1 - Host2, Host1 - Host3 의 트래픽 NIC1에서 75% 이상 사용 할 경우,  Host1-Host2는 NIC1 &  Host1-Host3는 NIC2로 분산 입니다.

LACP와 같이 항시 모든 NIC에 분산 처리 하지 않습니다.!!!
                         
osthek83 2023-06
감사합니다. DVS 랑 스위치쪽에서 LACP 설정하는걸 고려해 봐야겠네요.
                    
송주환 2023-06
VMware에서는 반드시 필요한 경우가 아니라면 LACP 구성을 권고하지 않습니다. 반드시 필요한 상황인가요?
물리 포트 링크 속도 증가 또는 LBT로 대응 불가능한 상황인가요?
                         
osthek83 2023-06
물리포트 링크 속도는 여유가 있습니다. 10기가인데, 보통경우 100메가도 채 되지 않습니다. 다만 순간적으로 한 200~300 씩 치솟는데 이럴때 스위치단에서 output discard 가 발생합니다.
총 서버가 4개가 연결되어 있는데, 2개만 이런 현상이 발생합니다...sfp 가 고장이 난거면 스위치쪽에서 에러메시지가 확인가능하기 떄문에 이건 아닌거 같고, vsan 도 좀전에 트래픽 양을 vcenter 에서 확인해 보니 10메가도 채 되지 않습니다...미스테리 하네요..
첫번째 서버에는 vm 도 전혀 들어가 있지 않아도 도대체 어떤게 순간적으로 트래픽을 저렇게 유발하는지, 어떤 트래픽이 드랍되는지 알수가 없네요.
                         
송주환 2023-06
Deep packet buffer를 가진 스위치를 사용하는 것이 좋겠습니다.
drop이 발생할 때 port queue도 한번 모니터링 해 보시구요. burst traffic이 밀려들어와서 순간적으로 버퍼에서 드랍이 발생하는 경우라면, LACP로 해결되지 않을 가능성이 있습니다.
osthek83 2023-06
그렇지 않아도 처음으로 한게 queue vlaue 변경이었는데, 문제는 여전히 해결이 안되네요. 일단 queue 크기를 이빠이 늘려놨습니다 ㅡ,.ㅡ; 내일까지 두고 보도록 하겠습니다.
흥마 2023-06
200~300MB/sec or 200~300Mbps 으로 Output Discard가 발생 되었으면, 대역폭 문제가 아닙니다.
10Gbps S/W의 VSAN에서 이 정도로는 성능 부족 하지 않습니다.
장비 혹은 설정 등의 문제 가능성이 높습니다.
maronet 2023-06
vsan 4노드면 억대 비용을 것 같은데...
언급되는 내용들 보면 기본적인 설계, 가이드, 설치확인도 안된 것 같고요.
문제가 생겼음에도 커뮤니티에 의존해야할 정도로 지원도 못 받는 것 같습니다.
좀 답답하시것습니다.
     
osthek83 2023-06
후지쯔 서버 16대 샀는데, 16대 전부 NIC 카드 반이 vcenter 설치하자마자 인식 불가해서 2달 동안 쓰지도 못하고, ㅡ,.ㅡ; 후아....불만이야기 하자면 끝도 없습니다. 위에서도 후지쯔 더 이상만 사용하지 말자고 해서 이번에는 레노버로 주문했습니다...
          
흥마 2023-06
경험상 제가 권하고 싶지 않은 서버가 화웨이, 후지쯔, 레노보 입니다.
화웨이는 Intel NIC을 써도 Firmware 문제 많고, 후지쯔는 엔진니어가 제대로 지원 못 하고, 레노보는 옛날의 IBM이 아닌 마감 상태 안 좋았습니다.
특히 레이드 배터리 없다고 ESXi 설치 안 되는 현상은 황당
DellEMC와 HPE가 그래도 쓸만 합니다.
               
osthek83 2023-06
예산만 허락되면 뒤도 안 돌아보고 델로 갔을텐도, 견적 받아보니 약 20프로 이상 차이가 나서, 그냥 레노버로 ㅠㅠ 밑에서 뭐라해도 위에서는 한푼이라도 적게 드는게 최고인거 같습니다. 레노버도 별로라니 설치전부터 걱정이 앞서네요;;;
                    
흥마 2023-06
해당 장비 쓰다가 실무진들께서 장애와 서비스 사태 몇 번 당해 보시고는 위에다가 절대로 못 쓰겠다고 하시는거 본적 있습니다.
위에서는 밑에 능력 때문에 제대로 못 하는 것인지? 장비 문제가 원인인지?? 제대로 인지를 못 할 수도 있기 때문에 잘 설득 하셔야 합니다.
                    
maronet 2023-06
조직에서는 일단은 비용 중심으로 볼 수 밖에 없겠죠.
하드웨어야 흥마님 말씀 처럼 장애리스트 정리해서 보고하면 장애시간 -> 비용으로 환산되니 설득가능한 요소일겁니다.

다만, 하드웨어와 솔루션이 하나로 뭉뚱구려져서 최저가로 진행되버리면,
해당 솔루션에 대한 역량 없는 업체가 진행하면서 이런 일이 생기는게 아닌가 싶습니다.

토닥토닥~


제목Page 9/130
2015-12   1793903   백메가
2014-05   5268864   정은준1
2022-01   4111   행복하세
2020-10   4117   allecter
2020-12   4117   osthek83
2020-03   4125   파이트복서
2018-11   4126   전진
2020-09   4127   호랑이백숙
2021-08   4135   bronzes
2021-10   4138   미친감자
2018-10   4143   함함해
2021-03   4144  
2022-01   4148   드리데이
2020-01   4154   똥파리이
2020-11   4155   행복하세
2022-01   4159   bumworld
2021-12   4163   v천소유v
2021-12   4168   spider00
2020-05   4169   김지철
2020-03   4173   anti2cpu
2020-07   4175   행복하세
2022-01   4177   bumworld