안녕하세요.
대학원생으로 생명공학쪽 연구를 하고 있는 학생입니다.
제 실험실에서 연구하는 주제들의 요즘 트랜드는 NGS 데이터 (특히 RNA sequencing)를 일반 assay처럼 다루고 있기때문에 직접 이에 대한 세팅을 시작하게 되었습니다.
혹시라도 이쪽 계열에 계신 분들의 도움을 얻을 수 있을까 싶어 글을 남깁니다.
이번에 제가 단독으로 하는 연구에서는 sequencing data를 업체에서도 분석을 해주었지만 sample당 10만원이라는 비싼 가격과 분석 data의 부족함을 느꼈기에 직접 raw data를 분석하기 시작하였습니다.
제 개인 노트북 (i7 9750H, 32GB램)에 우분투를 설치하여 BBduk, Trim galore, STAR aligner, salmon 과 같은 프로그램을 이용하였습니다. 21sample 분석하는데 만 2일 걸렸고 이들보다 더 오래걸린다고 알려진 Bowtie, HISAT2와 같은 프로그램은 엄두를 못내게 되었습니다.
교수님께서 이를 보시고 워크스테이션을 하나 구입하여 추후 분석(public data와의 비교, 새로운 실험)에 사용하는 것을 생각하시게 되었습니다.
당장 제 실험에서 사용될 data들은 제 개인 노트북으로 해결이 가능할것 같지만 미래를 보고 구입을 하시려하는 것같습니다.
이에 견적아닌 견적, 구입시기에 대한 고민이 있습니다.
딥러닝과는 달라 CPU의 파워가 결정적이고 램에 데이터를 상주시킨 후 새로 읽은 data를 비교하는 계산이 주 이기에 램의 크기 또한 중요합니다.
먼저 CPU는 2월 말에 3990X를 기다리는 것이 좋을까요? 당장 필요한것이 아니기때문에 기다리는데는 전혀 지장이 없습니다.
또한 GPU의 성능이 크게 중요하지 않다하더라도 이에 준하는 스펙을 갖추어놓고 추후 딥러닝 등의 분석을 조금이나마 할 수 있게 준비해두는 것이 좋을까요?
마지막으로 유지 보수 관점에서 제 후배들은 관리에 관심이 없을 수 있기에 조립보다는 DELL이나 HP 같은 대기업의 워크 스테이션을 구입하는 것이 나을까요?
참고로 de novo assembly 연구는 진행하지 않습니다.
긴글 읽어 주셔서 감사합니다^^ 새해 복 많이 받으세요
Salmon은 제가 쓰는 kallisto랑 비슷한 pseudoalignment 쓰는 걸로 기억하는데 이건 램이 덜 들어서
저는 8코어 3700x으로도 별로 불편함 못 느꼈습니다. 다만 저는. Human transcriptome만 분석하고 있어서 dna 분석 등에서는
얼마나 더 많은 자원이 필요할지 모르겠네요
딥러닝까지 생각하신다면 rtx 이상 구매하시는 것도 한 방법이겠네요... 3700x+kallisto 쓰니 대략 하루에 500개 정도의 transcriptome을
Alignment할 수 있다는 계산이 나왔습니다... 아무튼 저도 이분야가 주력은 아니고 사이드프로젝트로 진행중인데 남들은 뭐쓰는지
궁금하긴 하네요. 옆의 이미지 딥러닝 회사는 rtx 4장 씩 끼워가며 일하던데~
말씀해주신대로 STAR는 32GB 이상 필요로 하지만 속도도 워낙 좋고 포기하기 어려운 부분들이 많은 것 같습니다.
salmon과 kalisto 또한 잘 사용하고있습니다!
다만 public data 수십건을 같이 분석하려다보니 컴퓨팅 파워가 조금 부족함을 느끼고 있습니다.
말씀하신대로 3700x정도로도 차후에 괜찮을까요..
세금이 들어가는 연구비를 사용하는 입장이다보니 조금 더 신중하게 되네요.
(추가) 답변 쓰는 도중 글이 조금 더 늘어 있었네요. trimming의 시간또한 무시할 수 없고 salmon과 kalisto가 매우 좋은 pseudo align 법임을 알지만 여러 방법을 모두 해보는게 기본적인 실험법이라 생각이 들어서요~
하는 일은 전부 비슷비슷한데요
메인이 그쪽이라면 속도가 생명이니 이 이상도 오버스펙은 아닐 것 같습니다. Cpu남으면 일 한꺼번에 다중화해서 많이 시키면 그만인지라...
그리고 저는 트리밍 안하는 경우가 많아서 그쪽은 잘 모르겠네요. 어느쪽이던간에 cpu 자원이 많아서 손해보는 작업은 절대아니겠죠...
게다가 저는 실력이 미천해서 STAR은 작동도 못 시킵니다. 왜 안 되는지 모르겠어요 음핫핫핫
귀찮아서 파이썬도 안 쓰고 죄다 r package로 데이터 처리하는 사람이라~
당장 제가 사용하거나 근 몇년 내로의 human transcriptome 분석에서는 말씀해주신 3950x면 충분할 것 같습니다.
혹시 유지 보수 측면에서 랩에서 조립 컴퓨터를 사용해도 괜찮을지 아시는 바가 있으실까요...
모르겠네요... 조립컴퓨터 연구비로 구매한 경우도 알긴 하는데 전부 유지보수가 필요할만큼 빡세게 돌리지 않은 것 같아서
도움은 못 될 것 같아요.
연구 잘 되시길 기원하겠습니다!
장비용 시스템 납품 하는데 amd로 나간 장비만 프로그램 호환성이 매우 안좋아서 하루걸러서.... 수십대씩 cs 가 들어옵니다 ㅠㅠ
뭐 하는게 늘다보면 윈도우가 필요할 수도 있겠지만 다행히도 메인데탑은 아직은 쓸만한 4770k라서 그런 과정은 이걸로 해결하면 되겠죠 ㅎㅎ
바이너리 그냥 받아서 쓰거나 소스코드 컴파일해서 쓰는데, AMD FX 시리즈 시피유 나오자마자 우분투 깔아서 쭉 쓰고 있지만
AMD 시피유라고 문제 생기는 경우 없습니다. 윈도와 달리 리눅스에서는 AMD FX 시피유가 성능이 잘 나와주는 편이죠.
일단 시간 제일 많이 잡아먹는 부분부터 개선해 보세요. 트리밍을 예로 들면 제 경우엔 fastp를 이용해서 시간 엄청 줄였습니다. 이게 엄청 빠르긴 한데 anaconda로 버전 업데이트 될때마다 가끔 있지도 않은 어댑터를 날린다고 시퀀스가 짧아지는 문제 등이 있어서 경우에 따라 fastx_toolikt 을 쓸 때도 있지요. 예전에 멋모르고 느려터진 NGS QC Toolkit 쓸때와는 천지 차이더라구요. 그리고 아시는대로 Kallitso가 Bowtie + eXpress 대비 훨 빠르고 리소스도 적게 요구합니다. 결국은 최신 프로그램들을 꾸준히 찾아서 테스트 해 봐야 되더군요.
램이 256GB 까지 필요하면, 현재 가성비는 듀얼 제온 E5 시피유 쓰는 구형 웍스가 좋습니다. 16GB DDR3 서버램이 3만원 정도거든요. 다만 오래전 모델들이라서 상태가 좋은 물건을 찾으셔야 하는데, 잘 하면 100만원대로도 듀얼 옥타코어 시피유, 256GB 램 정도로 시스템 구할 수 있어요. 그리고 램이 128GB 이하로도 충분할 경우라면 AMD 3900X 정도면 가성비 좋다고 생각합니다. 제가 주로 하는 작업들 기준으로는 CPUbenchmark.net 의 CPU 점수가 잘 맞는 편이니까 벤치마크 점수 참고하셔서 시피유 선정하세요 (생각보다 3900X와 3950X 점수 차이 별로 안납니다). 아주 빠름 컴 한대 보다는 적당히 빠른 컴 두대가 유리한것 같구요, 구입 시기는 뭐 기다리면 끝이 없으니까 램 가격 더 오르기 전에 얼른 구입하시는게 나을것 같습니다. 기성품 깡통 웍스 구입해서 램, 하드 업그레이드 해도 되구요. 처음부터 사양 갖춰서 웍스 주문하면 가격이 너무 올라가더군요.
저는 완제품 웍스와 조립 웍스 둘 다 쓰고 있는데, 유지 보수라고 할건 둘 다 없습니다. 뭐 데이타 백업이 거의 전부 아닌가 싶어요. 딥러닝 안하실거죠? 그래픽카드는 제일 저렴한 라데온으로 하세요. 어차피 터미널에서 작업하고, 따로 설치하는 지포스 드라이버가 버그가 더러 있어서 저는 라데온 커널드라이버가 제일 속편하더라구요.
저는 T7600 웍스, 조립 인텔 X79, X99, 그리고 AMD 3900X 사용중입니다. 램은 64~256GB 정도고, 3~4TB HDD, 그래픽은 라데온 5450, 6450 씁니다.
4년 전까지만해도 X58 조립컴에 램 48GB 끼워서 썼었죠. 30Gbp 어셈블리 하는데 일주일 정도 걸렸었어요. ㅠㅠ
trimming 과정에서 trim galore에서 BBduk으로 넘어가고있는데 이친구 또한 속도가 괜찮은 것 같습니다.
워크스테이션급으로 첨부터 눈을 높여서 가기보다는 말씀해주신대로 3900X or 3950x 128GB 하드 4TB 라데온 시스템으로 구축해야겠습니다^^
추후에 더 높은 사양이 필요하다면 그 때 시스템을 더 구축하는게 더 도윰이 될 것 같네요!