SLURM ½Ç½À¿ë Ŭ·¯½ºÅÍ ±¸Ãà Çϵå¿þ¾î

   Á¶È¸ 1418   Ãßõ 0    

안녕하세요. 홈서버에 입문한지 1년 남짓 되어가는 대학생입니다.

2CPU에서 많이 배워가고 있습니다.

최근에 HPC에 대해 관심이 생겨서 이것저것 공부하다가 실습용 클러스터를 한번 만들어보고 싶어졌습니다.

기존에는 proxmox vm을 생성해서 공부해왔지만, 실제 물리적인 클러스터를 만드는게 로망입니다.

클러스터의 구성 요건은 다음과 같습니다.


<구성 요건>

ROCKY linux 8.8

1개의 마스터 노드(HP Z440 보유중)

4개의 컴퓨트 노드 (CPU 만 사용)

https://github.com/openhpc/ohpc/releases/download/v2.7.GA/Install_guide-Rocky8-Warewulf-SLURM-2.7-x86_64.pdf


다만 제가 아직 학생인지라 예산의 한계가 있습니다.

그래서 컴퓨트 노드 당 5만원 이하로 구축하려 합니다.

그래서 지금 생각하고 있는 구성은 다음과 같습니다.


<컴퓨트 노드 구성>

X86기반

중고 채굴용 메인보드 + G3900 + ddr4 4g + 쿨러 2만원

중고 파워 서플라이 500w 1.5만원


컴퓨트 노드는 pxe와 NFS storage를 통해 diskless로 운영할 예정입니다.

G3900은 AVX 명령어를 포함하지 않는다고 하던데 추후 다른 cpu로 업그레이드 할 생각입니다.


Q1. 실습용으로 이정도 하드웨어면 충분할까요? 보드나 파워가 망가지면 해당 노드는 파기할 생각입니다.

Q2. 그래도 HPC를 제대로 공부하려면 BMC가 포함된 보드를 구매하는게 나을까요

Q3. 하나의 노드가 망가질 때 다른 노드도 함께 망가질 일은 없을까요?


이 외에도 HPC 관련 산업 종사자 또는 다뤄보신 분들이 계시다면 조언 부탁드립니다.

가르침에 감사드립니다.


쪽팔리면 질문하지 맙시다. 소중한 답변 댓글을 삭제하는건 부끄러운 일 입니다 

ªÀº±Û Àϼö·Ï ½ÅÁßÇÏ°Ô.
¹æÇâÀÌ Á» ´Þ¶ó¿ä

Ŭ·¯½ºÅÍ´Â ¿©·¯´ë¸¦ ÇÑ´ë ó·³ »ç¿ëÇÏ´Â ¸ñÀûÀÌ°í..

³×Æ®¿öÅ©¿Í µ¥ÀÌÅÍ À̵¿ ´ë¿ªÆø ¹®Á¦¿¡ ½Ã´Þ¸³´Ï´Ù.

±×·¡¼­ Ethernet ÀÌ ´À·Á¼­ ÀÎÇǴϺ¥µå¸¦ »ç¿ëÇÕ´Ï´Ù.
(Infiniband 40G/100G/200Gbps)

1¹ø ÄÄÇ»ÅÍ°¡ 2¹ø ÄÄÇ»ÅÍÀÇ ¸Þ¸ð¸®¸¦ Á¢±ÙÇϴµ¥..
2¹ø OSÀÇ °£¼·À» ¹Þ½À´Ï´Ù. ±×·¯¸é ´À·ÁÁ®¿ä..
±×·¡¼­ RDMA¸¦ »ç¿ëÇÕ´Ï´Ù.  ¼­·Î OS °£¼·¾øÀÌ ´Ù¸¥ ÄÄÇ»ÅÍÀÇ ¸Þ¸ð¸®¿Í NVMe, GPU¸¦
¸¶Ä¡ ³ªÀÇ Local Device ¸¦ »ç¿ëÇÏ´Â °Í ó·³ Á¦ÇÑ ¾øÀÌ ºü¸£°Ô ¾µ ¼ö ÀÖ¾î¾ß ÇÕ´Ï´Ù.

PC³ª ¼­¹ö¿Í´Â ¶Ç ´Ù¸¥ °³³äÀÔ´Ï´Ù... ½´ÆÛÄÄÇ»ÅÍ ÀÎ °ÍÀÌÁÒ..

ÀϹÝÀûÀº HPC¿¡¼­ ¸»Çϴ Ŭ·¯½ºÅÍ¿¡ ´ëÇÑ °ßÇØÀÔ´Ï´Ù.
SLURM¿¡ ´ëÇÑ °ßÇØ´Â ¾Æ´Õ´Ï´Ù.
     
´äº¯ °¨»çµå¸³´Ï´Ù.
IB¿Í RDMAÀÇ °³³äÀº ´ë·« ¾Ë°í ÀÖ¾úÁö¸¸ ºñ¿ë¹®Á¦ ¶§¹®¿¡ Á¦¿ÜÇß½À´Ï´Ù.
¿ì¼± MPI ¿Í OPENMP¸¦ ½Ç½ÀÇϴµ¥ ÃÊÁ¡À» µÎ°í ÀÖ½À´Ï´Ù.
¸î°¡Áö Ãß°¡ÀûÀ¸·Î ¿©ÂåºÁµµ µÉ±î¿ä?

Q1. infiniband ¾øÀÌ ½Ç½ÀÇÏ´Â°Ç ¹ÝÂÊÂ¥¸® ÇнÀÀÌ µÉ±î¿ä?
mellanox connect x3 40g nic °¡ »ý°¢º¸´Ù´Â Àú·ÅÇÑ°Í °°¾Æ ib ½ºÀ§Ä¡¿Í ÇÔ²² ±¸ÃàÇÒ »ý°¢µµ ÇغýÀ´Ï´Ù.

Q2. ¿©±â¼­ ¾ð±ÞÇϽŠNVME´Â ij½Ì¿ëÀΰ¡¿ä?

Q3. ½ÇÁ¦ HPC¿¡¼­´Â °¢ ³ëµå¿¡ µ¶¸³ÀûÀ¸·Î OS¸¦ ¼³Ä¡Çϳª¿ä?

Q4. HPC È°¿ë¿¡ ÃÊÁ¡À» µÐ´Ù¸é ¾îµð¼­ºÎÅÍ °øºÎÇÏ´Â°Ô ÁÁÀ»±î¿ä?
Á¦°¡ ÄÄÇ»ÅÍ Àü°øÀÌ ¾Æ´Ï¶ó Çб³¿¡¼­ ¹è¿ì±â´Â ¾î·Á¿ï°Í °°½À´Ï´Ù.

ÀÌ·¸°Ô µµ¿ò Áּż­ Á¤¸» °¨»çÇÕ´Ï´Ù!!
          
openMPI¿Í openMP´Â ÀüÇô ´Ù¸¨´Ï´Ù.
openMP´Â ÇϳªÀÇ ÄÄÇ»ÅÍ ³»¿¡¼­ multi core¸¦ »ç¿ëÇϵµ·Ï ÀÛ¾÷À» ½±°Ô ºÐ¹èÇÏ´Â °ÍÀÌ°í, ÄÄÆÄÀÏ·¯ È®ÀåÀ¸·Î ¼Õ½±°Ô for¹®À» µîÀ» ³ª´²ÁÖµµ·Ï ÇÏ´Â ³à¼®ÀÔ´Ï´Ù.
openMPI´Â ³×Æ®¿öÅ©¸¦ ÅëÇØ ´Ù¸¥ ÄÄÇ»ÅÍ¿¡¼­ ¿¬»êÀ» Çϵµ·Ï ÇØÁÖ´Â ±â´ÉÀÔ´Ï´Ù.
slurmÀº ¿öÅ©·Îµå °ü¸®ÀÚ·Î, Ŭ·¯½ºÅÍ È¯°æ¿¡¼­ N°³ÀÇ PC¿¡ °ÉÃÄ mpi·Î ±¸ÇöµÈ ÇÁ·Î±×·¥À» ¿©·¯ »ç¿ëÀÚ°¡ ÀÏ°¨À» ¿¹¾àÇÏ¿© Ŭ·¯½ºÅÍ ÀüüÀÇ »ç¿ë·®À» ÃÖ´ëÇÑ ²ø¾î³»±â À§ÇÑ °ü¸®ÀÚ ÀÔ´Ï´Ù.

ÀÏ´Ü ÇöÀç °øºÎÇϽ÷Á´Â°Ô Ŭ·¯½ºÅÍ ÂÊÀ̶ó¸é
Â÷¶ó¸® ½´ÆÛÄÄÇ»Æà ¼¾ÅÍÀÇ ¿î¿µ ¸Þ´º¾ó°ú ÇÁ·Î±×·¡¹Ö ¸Þ´º¾óÀ» º¸½Ã¸é °£Á¢ÀûÀ¸·Î
Ŭ·¯½ºÅÍ°¡ ¾î¶»°Ô µ¹¾Æ°¡´ÂÁö ºü¸£°Ô ¾Æ½Ç¼ö ÀÖÀ» °ÍÀÌ°í

±× ÀÌÈÄ¿¡´Â slurm À̳ª openhpc, pbs µîÀ¸·Î Ŭ·¯½ºÅÍ¿¡ ±×·± ½Ã½ºÅÛÀ» ±¸ÃàÇÏ´Â ÂÊÀ¸·Î ¹æÇâÀ» ÀâÀ¸½Ã¸é ¾î¶³±î ÇÕ´Ï´Ù.
´Ù¸¸, ÀÌ·±½ÄÀÇ ¿¬»ê Ŭ·¯½ºÅÍ ±¸ÃàÀº HPC/½´ÆÛÄÄÇ»ÅÍ ÂÊ¿¡ ÁÖ·Î Àû¿ëµÇÁö
Ŭ¶ó¿ìµå ÂÊ¿¡¼­´Â hpc·Î ±¸ÇöµÇÁø ¾Ê½À´Ï´Ù.
½Ç½ÀÀä, ¹¹.
±×³É »ý°¢´ë·Î ÇÏ´Â °ÅÁÒ.
ÀÎÇǴϹêµåÀÏ ÇÊ¿ä´Â ¾ø¾î¿ä.
¸ÞÀκ¸µå¿¡ BMC°¡ ²À ÀÖ¾î¾ß ÇÏ´Â °Ç ¾Æ´Ï¿¹¿ä.
¿Âº¸µå ·£À¸·Î µÅ¿ä.
°íÀå³­ ³ëµå´Â °è»êÇÒ ¶§ »©¹ö¸®´Â °ÅÁÒ.
´Ù¸¥ ³ëµå¿¡ ¿µÇâÀ» ÁÖÁø ¾Ê¾Æ¿ä.
     
³ëµå ¸Þ¸ð¸®´Â Á» ºÎÁ·ÇØ¿ä.
dateno1 02-28
¿äÁò ½Ã´ë¿¡ ±×·± ½ºÆÑÀ¸·Î ±¸ÃàÇϽDz¨¶ó¸é Â÷¶ó¸® Á» ±¦ÂúÀº ÄÄ¿¡¼­ °¡»óÀ¸·Î ¿©·¯°³ Æļ¼¿ä (°¡»óÀÌ Àú·± °íöº¸´Ü ºü¸§)

°¡»óÀ̶ó¸é BMC ¾ø¾îµµ ±×´Ú ¹®Á¦ ¾ø½À´Ï´Ù

¸ÞÀνºÆ®¸²µµ ·¥ 256±â°¡±îÁö µÇ´Ùº¸´Ï ½Ç½À¿ëÀ¸·Î ±¸ÃàÇϴµ¥ ¾Æ¹« ÁöÀå ¾ø½À´Ï´Ù
slurm À» ¾²½Å´Ù´Ï Áö±ÝÀº ±×¸¸µÐ ¹Ú»ç°úÁ¤ Dry ·¦ÀÌ »ý°¢³ª´Â±º¿ä. È­ÀÌÆà ÇÏ½Ã±æ ¹Ù¶ø´Ï´Ù!


QnA
Á¦¸ñPage 129/5685
2014-05   4968579   Á¤ÀºÁØ1
2015-12   1504906   ¹é¸Þ°¡
2003-01   12136   ¿Àµ¿°Ç
2004-01   11109   ±è±â¹ü
2004-11   7242   ÀÌ°æÁØ
2005-11   5202   ¼ÕÁØ»ó
2006-04   5578   À̵¿Àç
2005-10   5506   À±Çö´ö
2002-11   10866   ±è±¤È¯
2003-04   12119   °­È£¿ø
2003-12   10922   ±è±âȲ
2005-02   6583   À層¼ö
2004-11   7217   ÀÌÁØÈ£
2005-10   5691   ¹èÁ¤ÇÑ
2003-05   12476   À±¼®Áø
2003-02   11405   ¹Ú¿µÈñ
2006-04   6461   ¹Ú±âµÎ
2002-12   12218   ÀÌ°ü¿õ
2006-03   5407   ¿ì½Â¿±
2006-04   5344   ¹ÚÂù¹Î
2003-11   10203   ±è½ÂÈÆ
2004-12   6746   ÀåÀͼö