바이오인포매틱스용 워크스테이션 질문입니다.

피파   
   조회 5570   추천 0    

안녕하세요.

대학원생으로 생명공학쪽 연구를 하고 있는 학생입니다.

제 실험실에서 연구하는 주제들의 요즘 트랜드는 NGS 데이터 (특히 RNA sequencing)를 일반 assay처럼 다루고 있기때문에 직접 이에 대한 세팅을 시작하게 되었습니다.

혹시라도 이쪽 계열에 계신 분들의 도움을 얻을 수 있을까 싶어 글을 남깁니다.

이번에 제가 단독으로 하는 연구에서는 sequencing data를 업체에서도 분석을 해주었지만 sample당 10만원이라는 비싼 가격과 분석 data의 부족함을 느꼈기에 직접 raw data를 분석하기 시작하였습니다.

제 개인 노트북 (i7 9750H, 32GB램)에 우분투를 설치하여 BBduk, Trim galore, STAR aligner, salmon 과 같은 프로그램을 이용하였습니다. 21sample 분석하는데 만 2일 걸렸고 이들보다 더 오래걸린다고 알려진 Bowtie, HISAT2와 같은 프로그램은 엄두를 못내게 되었습니다.

교수님께서 이를 보시고 워크스테이션을 하나 구입하여 추후 분석(public data와의 비교, 새로운 실험)에 사용하는 것을 생각하시게 되었습니다.

당장 제 실험에서 사용될 data들은 제 개인 노트북으로 해결이 가능할것 같지만 미래를 보고 구입을 하시려하는 것같습니다.

이에 견적아닌 견적, 구입시기에 대한 고민이 있습니다.

딥러닝과는 달라 CPU의 파워가 결정적이고 램에 데이터를 상주시킨 후 새로 읽은 data를 비교하는 계산이 주 이기에 램의 크기 또한 중요합니다.

먼저 CPU는 2월 말에 3990X를 기다리는 것이 좋을까요? 당장 필요한것이 아니기때문에 기다리는데는 전혀 지장이 없습니다.

또한 GPU의 성능이 크게 중요하지 않다하더라도 이에 준하는 스펙을 갖추어놓고 추후 딥러닝 등의 분석을 조금이나마 할 수 있게 준비해두는 것이 좋을까요?

마지막으로 유지 보수 관점에서 제 후배들은 관리에 관심이 없을 수 있기에 조립보다는 DELL이나 HP 같은 대기업의 워크 스테이션을 구입하는 것이 나을까요?

참고로 de novo assembly 연구는 진행하지 않습니다.

긴글 읽어 주셔서 감사합니다^^ 새해 복 많이 받으세요

짧은글 일수록 신중하게.
영산회상 2020-01
제가 알기로는 star은 램 많이 먹지 않나요... 32기가는 정말 최소로 여겨질 정도...
Salmon은 제가 쓰는 kallisto랑 비슷한 pseudoalignment 쓰는 걸로 기억하는데  이건 램이 덜 들어서
저는 8코어 3700x으로도 별로 불편함 못 느꼈습니다. 다만 저는. Human transcriptome만 분석하고 있어서 dna 분석 등에서는
얼마나 더 많은 자원이 필요할지 모르겠네요
딥러닝까지 생각하신다면 rtx 이상 구매하시는 것도 한 방법이겠네요... 3700x+kallisto 쓰니 대략 하루에 500개 정도의 transcriptome을
Alignment할 수 있다는 계산이 나왔습니다... 아무튼 저도 이분야가 주력은 아니고 사이드프로젝트로 진행중인데 남들은 뭐쓰는지
궁금하긴 하네요. 옆의 이미지 딥러닝 회사는 rtx 4장 씩 끼워가며 일하던데~
피파 2020-01
네 저도 human transcriptome 분석을 하고있습니다.
말씀해주신대로 STAR는 32GB 이상 필요로 하지만 속도도 워낙 좋고 포기하기 어려운 부분들이 많은 것 같습니다.
salmon과 kalisto 또한 잘 사용하고있습니다!
다만 public data 수십건을 같이 분석하려다보니 컴퓨팅 파워가 조금 부족함을 느끼고 있습니다.
말씀하신대로 3700x정도로도 차후에 괜찮을까요..
세금이 들어가는 연구비를 사용하는 입장이다보니 조금 더 신중하게 되네요.
(추가) 답변 쓰는 도중 글이 조금 더 늘어 있었네요. trimming의 시간또한 무시할 수 없고 salmon과 kalisto가 매우 좋은 pseudo align 법임을 알지만 여러 방법을 모두 해보는게 기본적인 실험법이라 생각이 들어서요~
     
영산회상 2020-01
가능한가와 얼마나 빨리해야하는가의 차이겠죠... 3700x로도 가능하다고 했지만 제 바로 옆자리에는 최근에 3950x 쓰는 분도 점점 늘고 있습니다.
하는 일은 전부 비슷비슷한데요
메인이 그쪽이라면 속도가 생명이니 이 이상도 오버스펙은 아닐 것 같습니다.  Cpu남으면 일 한꺼번에 다중화해서 많이 시키면 그만인지라...
그리고 저는 트리밍 안하는 경우가 많아서 그쪽은 잘 모르겠네요. 어느쪽이던간에 cpu 자원이 많아서 손해보는 작업은 절대아니겠죠...
게다가 저는 실력이 미천해서 STAR은 작동도 못 시킵니다. 왜 안 되는지 모르겠어요 음핫핫핫
귀찮아서 파이썬도 안 쓰고 죄다 r package로 데이터 처리하는 사람이라~
          
피파 2020-01
답변 감사합니다.
당장 제가 사용하거나 근 몇년 내로의 human transcriptome 분석에서는 말씀해주신 3950x면 충분할 것 같습니다.
혹시 유지 보수 측면에서 랩에서 조립 컴퓨터를 사용해도 괜찮을지 아시는 바가 있으실까요...
               
영산회상 2020-01
저야 사비로 진행하는 거고 용도가 다되면 개인적으로 쓸 목적이라서 조립을 했지만 연구실에서 공용으로 쓸 목적이라면
모르겠네요... 조립컴퓨터 연구비로 구매한 경우도 알긴 하는데 전부 유지보수가 필요할만큼 빡세게 돌리지 않은 것 같아서
도움은 못 될 것 같아요.
                    
피파 2020-01
아닙니다. 어디 물어볼 곳도 없었는데 이렇게 친절하게 알려주시니 제가 감사드리죠^^
연구 잘 되시길 기원하겠습니다!
Doker 2020-01
개인적으로 게이밍용이 아니면.... 이런 용도라면 amd 비추천 합니다
장비용 시스템 납품 하는데 amd로 나간 장비만 프로그램 호환성이 매우 안좋아서 하루걸러서.... 수십대씩 cs 가 들어옵니다 ㅠㅠ
     
영산회상 2020-01
저도 처음에 호환성 때문에 걱정했는데 아직까지는 호환성 때문에 우분투나 r 에서 문제생긴 경우는 운좋게 경험하지 못했습니다.
뭐 하는게 늘다보면 윈도우가 필요할 수도 있겠지만 다행히도 메인데탑은 아직은 쓸만한 4770k라서 그런 과정은 이걸로 해결하면 되겠죠 ㅎㅎ
     
김우진 2020-01
바이오인포 쪽은 유닉스/리눅스 환경에서 돌리는 순수 계산 영역이고, 장비와 연결해서 쓰는 특화된 소프트웨어들은 별로 없습니다.
바이너리 그냥 받아서 쓰거나 소스코드 컴파일해서 쓰는데, AMD FX 시리즈 시피유 나오자마자 우분투 깔아서 쭉 쓰고 있지만
AMD 시피유라고 문제 생기는 경우 없습니다. 윈도와 달리 리눅스에서는 AMD FX 시피유가 성능이 잘 나와주는 편이죠.
김우진 2020-01
어셈블리는 하지 않으신다면 램은 64GB 이상으로 필요한 상황은 많지 않을 것입니다. 그냥 시피유 빠른게 최고죠. 3900X나 3950X 정도로도 충분하다고 생각합니다. 일반 AM4 보드도 램 128GB 지원 해요. 전사체 어셈블리를 주로 하는 입장에서는 쓰레트리퍼의 256GB 구성이 가능한 8개 램슬롯이 탐나긴 합니다. 그런데 프로그램마다 멀티코어 지원하지 않는 것들이 있어서 빠른 싱글 코어가 더 좋을 때도 가끔 있구요 (ex. mFold 열역학 계산). 그런데 시피유가 빨라도 의외로 HDD에 발목 잡혀서 성능이 다 안 나오는 경우도 있습니다. 그렇다고 SSD 쓰기도 애매한게 저처럼 전사체 어셈블리 주로 하면 일루미나 데이타 크기도 그렇고, SSD가 얼마나 버틸지 알 수 없겠더라구요 (de novo assembly 해보면 중간에 생성되는 임시파일들 갯수와 크기가 엄청납니다).

일단 시간 제일 많이 잡아먹는 부분부터 개선해 보세요. 트리밍을 예로 들면 제 경우엔 fastp를 이용해서 시간 엄청 줄였습니다. 이게 엄청 빠르긴 한데 anaconda로 버전 업데이트 될때마다 가끔 있지도 않은 어댑터를 날린다고 시퀀스가 짧아지는 문제 등이 있어서 경우에 따라 fastx_toolikt 을 쓸 때도 있지요. 예전에 멋모르고 느려터진 NGS QC Toolkit 쓸때와는 천지 차이더라구요. 그리고 아시는대로 Kallitso가 Bowtie + eXpress 대비 훨 빠르고 리소스도 적게 요구합니다. 결국은 최신 프로그램들을 꾸준히 찾아서 테스트 해 봐야 되더군요.

램이 256GB 까지 필요하면, 현재 가성비는 듀얼 제온 E5 시피유 쓰는 구형 웍스가 좋습니다. 16GB DDR3 서버램이 3만원 정도거든요. 다만 오래전 모델들이라서 상태가 좋은 물건을 찾으셔야 하는데, 잘 하면 100만원대로도 듀얼 옥타코어 시피유, 256GB 램 정도로 시스템 구할 수 있어요. 그리고 램이 128GB 이하로도 충분할 경우라면 AMD 3900X 정도면 가성비 좋다고 생각합니다. 제가 주로 하는 작업들 기준으로는 CPUbenchmark.net 의 CPU 점수가 잘 맞는 편이니까 벤치마크 점수 참고하셔서 시피유 선정하세요 (생각보다 3900X와 3950X 점수 차이 별로 안납니다). 아주 빠름 컴 한대 보다는 적당히 빠른 컴 두대가 유리한것 같구요, 구입 시기는 뭐 기다리면 끝이 없으니까 램 가격 더 오르기 전에 얼른 구입하시는게 나을것 같습니다. 기성품 깡통 웍스 구입해서 램, 하드 업그레이드 해도 되구요. 처음부터 사양 갖춰서 웍스 주문하면 가격이 너무 올라가더군요.

저는 완제품 웍스와 조립 웍스 둘 다 쓰고 있는데, 유지 보수라고 할건 둘 다 없습니다. 뭐 데이타 백업이 거의 전부 아닌가 싶어요. 딥러닝 안하실거죠? 그래픽카드는 제일 저렴한 라데온으로 하세요. 어차피 터미널에서 작업하고, 따로 설치하는 지포스 드라이버가 버그가 더러 있어서 저는 라데온 커널드라이버가 제일 속편하더라구요.

저는 T7600 웍스, 조립 인텔 X79, X99, 그리고 AMD 3900X 사용중입니다. 램은 64~256GB 정도고, 3~4TB HDD, 그래픽은 라데온 5450, 6450 씁니다.
4년 전까지만해도 X58 조립컴에 램 48GB 끼워서 썼었죠. 30Gbp 어셈블리 하는데 일주일 정도 걸렸었어요. ㅠㅠ
     
피파 2020-01
아이고 정말 피와 살이 되는 좋은 정보 감사드립니다!
trimming 과정에서 trim galore에서 BBduk으로 넘어가고있는데 이친구 또한 속도가 괜찮은 것 같습니다.
워크스테이션급으로 첨부터 눈을 높여서 가기보다는 말씀해주신대로 3900X or 3950x 128GB 하드 4TB 라데온 시스템으로 구축해야겠습니다^^
추후에 더 높은 사양이 필요하다면 그 때 시스템을 더 구축하는게 더 도윰이 될 것 같네요!
          
영산회상 2020-01
제 경험상 kallisto는 HDD보다 ssd에서 1/8정도 시간이 단축됩니다; ssd가 그렇게 비싸지도 않으니 sata3 1TB라도 하나 구매하심이...
               
피파 2020-01
넵 SSD는 작업공간으로 두고 사망하면 버꾸는식으로 구상중입니다!
                    
영산회상 2020-01
ssd 생각보다 쉽게 안 죽어요. 제가 512gb짜리 삼성 SSD 70만원 주고 산거 샀을 때 부터 죽 토렌트 돌렸는데 몇년째 쌩쌩합니다.


QnA
제목Page 1155/5730
2015-12   1791116   백메가
2014-05   5266190   정은준1
2015-07   3346   김윤희
2024-08   1098   grzlr
2012-02   6757   가빠로구나
2014-03   3414   미담
. (6)
2016-08   4212   초보IT
2021-04   2325   머라카는데
2014-03   4614   신성공
2024-08   1502   구차니
2015-08   7152   미니TM
2012-03   5942   서현석
2018-12   3117   적이
2020-01   5792   행복하세
2018-12   3735   Nikon
2021-05   2931   이거레알
2012-03   4906   우앙뿌앙
2016-08   4529   이종관
2018-12   6303   Qsik
2014-04   5440   유병국
2012-04   7135   병맛폰
2017-09   3806   오티스