하둡관련 질문입니다.

김동민   
   조회 9094   추천 0    

아까 글을 ㎢쨉올라가지를 않았네요.
 
자게에다 대충 상황에 대한 글은 올렸습니다.
 
여기서 가상화를 한후에 남는 서버를 빅데이터 분석에 사용하자는 업체쪽의 의뢰도 들어왔는데요.
 
저는 그냥 아마존이나 유클라우드등을 이용해서 임대로 하자고 제안했는데
 
향후 외부임대 서비스도 고려하자라는 말에 뭘 크게 답변을 못드렸네요.머 제 돈이 드는건 아니니까요.
 
하둡구축관련에서 질문입니다.
 
1. 하둡구축시 하드웨어 사양
 
2. 기존데이터를 하둡시스템에 넣는 방법(DB및 각종 로그파일(.txt))
 
3. 구축후 외부 임대서비스등에 대한 사업성
 
4. 연간 유지비용
 
대략 이정도입니다. 자세하게 나열할려면 너무 길어져서 이만큼만 쓰겠습니다.
 
질문의 내용은 일단 문서로 만들어놔야 해서 입니다. 그래서 다음주에 가서 회의때 발표를 해야 합니다.
 
물론 업체를 찻아서 해도 되지만 업체보다는 우선 제가 진행을 좀 해보고 싶어서 그렇습니다.
 
보고뒤에 업체들과의 미팅도 좀 생각해보고 있습니다.
 
미팅도 가능합니다. 같이 식사라도 하면서 이야기할 수 있으면 좋겠습니다.
짧은글 일수록 신중하게.
이장원 2014-03
하둡쪽은 NexR에 문의해보세요. 국내에서 가장 실력이 좋습니다.

예전보다 설치가 쉬워지기는 했는데, 안정적으로 돌리려면 노하우가 좀 필요하다고 하더군요.

데이터 이전은 http://sqoop.apache.org

임대서비스 사업성은 거의 없다고 보시면 됩니다. 하둡 돌리면서 데이터 분석하는 정도면 자체적으로 구축해서 돌립니다.
김동민 2014-03
하둡설치가 까다로운가요? 아니면 운영하면서 문제발생시 대처가 어려운가요.
임대서비스는 사실 서버가 남으니까 이걸 버리기는 아깝고 해서 돌리겠다는 건데요.
이 부분은 좀더 시장성을 봐야 할거 같네요..
     
이장원 2014-03
줏어들은 바로는 한 두 개의 서버에 설치해서 운용해보는 것은 어렵지 않은데, 클러스터 크기가 커질 수록 어렵다고 들었습니다. 설계도 신경을 많이 써야 하고, 문제 발생도 은근히 많은 편인지라 안정적으로 운영하는게 어렵다더군요.

하둡이 오픈소스이긴 하지만, 상업적으로 쓸 때에는 붙여야 하는 소프트웨어도 많고, 운영이나 설계가 생각만큼 쉽지 않기에 하둡 관련 회사들이 계속 인수가 되었고, 먹고 살 수 있죠.
          
회원K 2014-03
하둡 클러스터를 하기 위해서는 주키퍼도 해야 되는 것으로 알고 있습니다.
빅 데이터 시장이 요즘 급격히 바뀌고 있는 것으로 알고 있습니다.
확실한 이니셔티브를 가진 회사에서 밀어주는 제품이 최고입니다.
강희환 2014-03
안녕하세요? 제가 아는 한에서 답변 드립니다. 저는 하둡 클러스터를 이용해서 데이터 분석 작업용 프로그램을 개발하는 프로그래머입니다.

1. 하둡구축시 하드웨어 사양
  일반적인 범용 부품을 이용한 조립서버를 사용하는 것이 좋습니다. 대체로 상면비용을 고려해보면 1U 짜리로 구성하시는 것이 좋고, CPU나 메모리 디스크는 많으면 많을수록 좋지만 적당한 가격대 성능비를 가진 부품으로 구성하시는 것이 좋습니다.
 요즘 추세라면 E5 계열 쿼드코어나 헥사코어 2개로 구성하고, 램은 CPU가 지원하는 채널에 맞게 48GB-64GB 정도로 구성하시면 되겠고, 디스크는 3.5인치 2TB-4TB SATA 4개로 구성하시면 되겠네요. 디스크는 개수가 많을수록 IO 성능이 좋아집니다. 노드 자체의 성능이 올라가면 작업이 빨라지지만, 노드를 여러개 추가해서 성능을 올릴 수 있기 때문에 가격대 성능비를 고려해서 구성하시면 되겠습니다.
 클러스터는 독립된 네트웍 스위치로 구성되는 것이 좋고, 기가비트 스위치를 사용해야 하고, 랙간 스위들끼리는 10G를 사용하는 경우 1G로 연결할 때에 비해 성능 차이가 많이 나더군요.

2. 기존데이터를 하둡시스템에 넣는 방법(DB및 각종 로그파일(.txt))
 txt 파일은 HDFS에 복사해서 넣으시면 됩니다. RDB의 경우에는 파일형태로 변환해서 저장하시든지 아니면 HBASE 등의 DB에 변환하셔서 넣으셔야 되는데, RDB와 같은 식으로 스키마를 사용하지 않고 KEY-VALUE 형태로 접근하는 방식으로 변환하셔야 합니다. 위에서 말씀하신 sqoop은 RDB의 데이터를 이전하는데 사용하는 툴입니다. 최종적으로는 파일형태로 저장하거나 HBASE 테이블 형태로 저장해야 합니다.

3. 구축후 외부 임대서비스등에 대한 사업성
 제가 프로그래머라서 잘은 모르지만 사업성은 없을 것 같네요. 왜냐하면 아마존이나 구글에서 클라우드 서비스를 하고 있고, 그런 것을 이용하는 것이 가격과 신뢰성 측면에서 더 나을 것이기 때문입니다.

4. 연간 유지비용
 단순히 생각하면 상면비가 들것이고, 디스크가 자주 고장나기 때문에 그정도의 유지보수 비용이 들겠습니다.
 그런데 클러스터를 운영할 인력이 필요할 것입니다. 단순히 하드웨어를 유지보수하는 인력 이외에 클러스터를 구축하고 관리하고 문제가 생겼을 경우에 대처할 수 있는 인력이 필요합니다. 오라클 DB사용하면 오라클 DB 설치하고 튜닝하고 하는 사람들 필요하죠? 하둡 클러스터도 마찬가지라고 보시면 됩니다. 인력 유지 비용이 가장 클거라고 생각되네요.

---

하둡은 계속 성장하고 있는 중이라서 버전업도 빠르고, 최신 정보가 잘 정리되어 있는 한글 문서가 별로 없습니다.

'하둡 완벽 가이드'라는 책이 개념을 잡기에는 괜찮은데, 워낙 빠르게 변하다 보니까 최신 버전의 변경 내용은 직접 공식 사이트의 문서를 보셔야 됩니다. 그리고 실제 운영중에 발생하는 문제들을 해결하기 위해서는 구글 검색을 많이 해보셔야 되고 때로는 소스코드를 직접 열어보셔야 될수도 있습니다.

리눅스, 하드웨어, 네트워크, 자바 프로그램, 오픈소스 커뮤니티 등에 대한 지식이 있는 운영인력이 필요할 것 같네요. 그쪽 분야에 대한 지식이 없는 회사에서 하둡 클러스터를 직접 운영하시는 것은 힘든 일이 될 것입니다.


QnA
제목Page 3234/5725
2015-12   1770535   백메가
2014-05   5245099   정은준1
2014-03   6862   김민철GC
2014-03   4718   임종열
2014-03   5707   무아
2014-03   4779   멀린
2014-03   3887   케이스
2014-03   12133   장동건2014
2014-03   5507   바이러스1
2014-03   3802   EYESSHOT
2014-03   4052   회원K
2014-03   6436   자연인
2014-03   10385   니포
2014-03   3734   1m전
2014-03   4075   VSPress
2014-03   14336   블루스카이
2014-03   5100   케이아스
2014-03   5053   송현우
2014-03   4162   Nicoffeine
2014-03   4083   나비z
2014-03   3390   삐돌이슬픔이
2014-03   8224   병맛폰