램 디스크를 100 기가 이상 사용하시는 분이 계실까요?

검은콩   
   조회 6721   추천 0    

쪽팔리면 질문하지 맙시다. 소중한 답변 댓글을 삭제하는건 부끄러운 일 입니다 


(우선 취미용임을 밝힙니다)


최근에 딥러닝에 매우 큰 관심을 갖게 되었고, 특히 sentence similarity 비교에 관심이 생겼습니다.


하여... faiss 를 통해 대략 1.5만개의 문서들을 불러들여와 embedding 파일들을 120기가 정도를 만들었는데 속도에 매우 불만입니다. (980 pro 위에 저장되어 있습니다)


원래는 milvus라는 local vector database 로 이 embeddings들을 다룰라했는데 제 3990x가 avx512를 지원을 안 하는 것도 있고(그래서인지 create_index 기능이 작동하지 않는 것 같습니다) milvus가 docker 중심으로 돌아가는 판국이라 마음에 안 들었습니다. 우분투 standalone도 써먹기 별로고... (제가 못 다루는 것도 있지만.. 3990x 워크스테이션에는 윈도우가 깔려있습니다)


따라서 차선책으로 faiss를 통해 embeddings 파일들을 생성해 나중에 쿼리를 입력했을 때 불러오자! 라는 식으로 진행했는데


불러오는데 수십초 걸리네요.


.....


그래서 어찌어찌 상상의 흐름이 램디스크쪽으로 흘러가게 됐는데


이런 식으로 100기가 정도씩을 램 디스크로 사용하시는 분들의 사용례를 들어보고 싶습니다.


찾아보니 2cpu에서는 primocache가 대세인 것 같은데, 설정 등을 어떻게들 하시는지 자세하게 예기해주시면


정말정말 감사할 것 같습니다 ^^

짧은글 일수록 신중하게.
검은콩 2023-05
게시판을 잘못올려(자유게시판) 삭제 후 재업로드하였습니다.
사랑하라 2023-05
SSD활성화 후에도 램디스크 쓰시는분이 있을까 싶은데요?
많이 쓰다, 요즘은 잊고 사네요
     
검은콩 2023-05
그런가요. 역시 최신 기술을 써야 하나 봅니다 ㅠ..
별해는아해 2023-05
딥러닝도 잘모르고, 램디스크도 사용하지않지만,
sentence similarity는 문자유사성을 찾는 AI 기능이고,
120기가에 1.5만개면, 1개 파일당 약 8MB 정도라는 가정하에서는
milvus라는 local vector database의 index 를 사용하시는게 좋을거 같네요
이런류는 index 없이 ssd보다 빠른 램디스크라고 해도, 인덱스없이 통짜로 120기가 전체를 읽는다면, 아마도 만족할만한 성능을 안나올것으로 보여지네요
물론, ssd보다는 램디스크가 좀더 성능이 나오긴하겠지만, index를 사용해서, 필요한 데이터만 읽는것과 비교하면 성능차이는 많이날듯하네요
     
검은콩 2023-05
흐아.. 사실 저도 milvus 를 쓰고 싶기는 한데, 새로운 컴퓨터를 들여야 하는 작업(avx 512가 지원되는 인텔 제품.....)을 해야해서
고행이 예상되는지라 최후로 미루고 싶었습니다.
일단은... 저사양 인텔 제품이라도 들여서 docker 로 돌려보던가 해야겠습니다 ㅠ.ㅠ
dateno1 2023-05
100기가 이상 만들어본적은 있지만, 아쉽게도 그런 사이즈 계속 쓸 수 있을만큼 램이 큰 시스템은 현제 안 가지고 있습니다

램디스크 성능 NVMe보다 엄청나게 응답이 빠르긴해도 그런게 필요한게 아니라면 속도는 옵테인으로도 충분해보입니다

그리고 위에도 적혀있듯이 아무리 램디스크로 가더라도 인덱스 있는것만큼 빠르진 않을꺼에요
     
검은콩 2023-05
그렇군요..... 일단 고민 좀 해보고 인텔 제품을 들이던가 해야겠습니다. 3990x면 avx512정돈 지원해줄 줄 알았는데 5995wx 도 지원 안 하네요; 젠4부터나 지원하는 게 참....ㅠㅠ
          
dateno1 2023-05
제온 안 갈 꺼라면 Rocket/Tiger로 가시거나 Alder의 바이오스 수정해서 (시퓨도 맞추어야 함) 제한 풀어야 합니다

아니면 젠4 가셔야겠죠
박문형 2023-05
AMD와 INTEL 은 스팩이나 각 세대 특징을 잘 확인해보면 장단점들이 있습니다..

이번 4세대 제온 스케일러블과 EPYC 에서는 EPYC는 깡성능은 확실히 인텔을 앞서지만 스토리지나 소프트웨어 기능은 인텔보다 적다라고도 할 수 있습니다..

(그 전 세대들도 거의 그러 해왔었습니다..)

이번 인텔 4세대에서 보여줄 다음 세대의 NVME VROC 기능과 소프트웨어 라이센스 기능이 기대가 됩니다..

문제는 그런 기능을 재대로 구현하려면 조립 시스템으로는 안되고 (케이블이 거의 전용급) 최소 베어본 시스템으로 가야 한다는 점입니다..

간장게장님이 RAID 게시판에 올리신 댓글 중 일부분입니다..

Intel® Server System M50FCP2UR TPS
https://cdrdv2-public.intel.com/710132/Intel_Server_System_M50FCP2UR_TPS_Rev1_1.pdf

저 링크 열면 메뉴얼이 나오는데 76 페이지 보시면 스토리지 기술에 대해 나와 있습니다..

나오고나서 좀 시간이 흘러야 쓸만한지 알 수 있겠죠..


근데 AMD EPYC 4세대 제품에서는 몇제품 메뉴얼을 보아도 아직 스토리지 관련 기술에 대해서는 특별히 발전된 것이 없어 보이고 옛날과 같이

NVME는 각 드라이브들과는 연결은 되지만  RAID 펑션 같은게 없는 듯합니다.. (OS에서 소프트웨어 레이드로 묶던지 해야겠죠..)
     
dateno1 2023-05
컨슈머 라인업도 있는 온보드 레이드가 없나요?

뭔가 특별한 가속 기능이 있는건 아니지만 '단순히 기능을 제공한다' 수준은 있을꺼라 생각합니다

가속 기능 지원 문제도 있고, RAID 관계없이 성능이 조금 떨어지는 문제도 있습니다 (둘 다 신형 하이엔드로 구성후 동일한 제품의 디스크 달아서 벤치 돌려도 좀 차이가 나더군요)

개인적으로는 시퓨의 라이센스 락 기능은 또 잉텔이 이상한거 간보는것같아서 좋아하진 않습니다 (서버 시장에서 가속 기능으로 저러는건 넘겨도, 저러다가 반응이 괜찮으면 각종 제품의 다양한 기능에 다 적용 (예를 들어 L4 Cache 쓸려면 라이센스 필요, AVX512 쓸려면 라이센스 필요등)할꺼같아서 불안합니다)
          
박문형 2023-05
https://www.tyan.com/Barebones_GC68AB8056_B8056G68AE12HR-2T

이 제품 (AMD EPYC 4세대) 확인했는데 메뉴얼이나 스팩에 RAID 라는용어 자체가 검색이 안됩니다..

U.2 Nvme 여러개 꼽고 묶어 사용하려면 OS 설치시 OS에서 제공하는 소프트웨어 레이드 밖에 방법이 없어 보입니다..

AMD EPYC 시스템은 세대 관계없이 거의 동일한 듯하며 하드웨어 레이드가 필요하면 레이드 카드를 꼽아 쓰라고 할 듯합니다..
               
dateno1 2023-05
기능이 제공 안 되나보네요 (제공되어도 서버용으로 쓸 수준 안 됨)

그나마 128 Lane같은 풍부한 확장성을 제공하니 다행이네요
김경철 2023-05
x299보드에 10900x 꽂고 메모리 32G 8개 꽂아서 256G만들어서 이것저것 하고 있습니다.
imdisk로 200G 램디스크로 잡고, 거기다 stable diffusion 디렉토리 통째로 카피해서 넣으니, 뭔가 좀 빨라긴것 같기는 합니다.
     
dateno1 2023-05
그건 기분탓일껍니다

기본 VRAM에서 돌아가는거고, 디스크 거의 쓰지도 않는 소프트인지라 디스크 빨라져도 보템이 안 되요
술이 2023-05
프리모캐쉬 200G 올려서 써보면 한번 불러들였던 데이터는 램에 캐쉬로 상주해서 그다음은 메모리단에서 전부 처리하게됩니다.

인덱스의 전략은 RDBMS와 분석용 데이터는 방식이 다릅니다. 딥러닝 쪽이라면 분석용으로 봐야되고 그런건 대부분 컬럼스토어 인덱스 구조로 사용합니다.
위와같은 용도는 대부분 인메모리 테이블이나 인메모리DB 기능을 이용하기도 합니다.(이런건 단점이 데이터 변함이 없는 고정된 데이터라야 가능한 구조고)
많은 데이터를 분석하는 경우는 대부분 메모리 단이나 캐쉬단에 배치시켜서 돌리곤 해요. 같은 데이터 맨날 저장소쪽에서 불러들이고 하는게 쓸데없는 병목현상이기 때문입니다.
NVME에 올라간것 보다 메모리에 상주해 있다가 불러오면 몇배는 더 빠르긴 할겁니다. 작은 사이즈 파일들은 많이 빠르죠.

데스크탑이 128G 인경우는 70-80G정도 캐쉬로 잡고 쓰고 있고 서버가 256G 정도인 경우는 200G 정도 RAID 스토리지에 읽기캐쉬용도로 배치시켜서 사용하고 있습니다. 속도는 넘사벽으로 빠르기는 할건데 그래도 테스트는 해봐야 됩니다.
제온프로 2023-05
램디스크를 쓰면 윈도우가 빠릿빠릿 하고 좋습니다만.

일부 프로그램들에 불협화음으로 ..
시스템의 가끔 트러블이 생깁니다. 지원 못하는 프로그램인지.
아니면 윈도우 기본 구성만 설정된 것인지. 하여튼 시스템이 불안해집니다.

한 4~5년은 잘 썼는데 이제는 않쓰게 됩니다.
Primo Ramdisk 사용했습니다.

성능이 낮은 시스템 일 수록 효과는 좋아요.
특히 하드드라이브를 운영체제로 쓰는 시스템에 좋습니다.

이제는 SSD가 있어서
잊어먹고 삽니다..

AVX 512이면.. 스케일러블로 가야 겠는데요.
어쩌다 AMD로 가셨는지.
김우진 2023-05
리눅스라면 /dev/shm 폴더가 램드라이브인데요…
농부오빠 2023-05
인텔 Optane 드라이브도 한번 생각해 보시면 어떨까 합니다.  비싸긴 하지만 P5800X 같은 끝판왕을 쓰면 좀 다를겁니다.
400GB짜리 하나 사서 돌려보고 우와~ 했지만 OS용으로는 용량이 모잘라서 800GB/1.6B짜리로 다시 사서 쓰는데 단순 미디어 같은 데이터 저장용이 아니라면 M.2 SSD하고 저용량 파일 랜덤 I/O 속도 차이 체감 큽니다.


QnA