SLURM ½Ç½À¿ë Ŭ·¯½ºÅÍ ±¸Ãà Çϵå¿þ¾î

   Á¶È¸ 1444   Ãßõ 0    

안녕하세요. 홈서버에 입문한지 1년 남짓 되어가는 대학생입니다.

2CPU에서 많이 배워가고 있습니다.

최근에 HPC에 대해 관심이 생겨서 이것저것 공부하다가 실습용 클러스터를 한번 만들어보고 싶어졌습니다.

기존에는 proxmox vm을 생성해서 공부해왔지만, 실제 물리적인 클러스터를 만드는게 로망입니다.

클러스터의 구성 요건은 다음과 같습니다.


<구성 요건>

ROCKY linux 8.8

1개의 마스터 노드(HP Z440 보유중)

4개의 컴퓨트 노드 (CPU 만 사용)

https://github.com/openhpc/ohpc/releases/download/v2.7.GA/Install_guide-Rocky8-Warewulf-SLURM-2.7-x86_64.pdf


다만 제가 아직 학생인지라 예산의 한계가 있습니다.

그래서 컴퓨트 노드 당 5만원 이하로 구축하려 합니다.

그래서 지금 생각하고 있는 구성은 다음과 같습니다.


<컴퓨트 노드 구성>

X86기반

중고 채굴용 메인보드 + G3900 + ddr4 4g + 쿨러 2만원

중고 파워 서플라이 500w 1.5만원


컴퓨트 노드는 pxe와 NFS storage를 통해 diskless로 운영할 예정입니다.

G3900은 AVX 명령어를 포함하지 않는다고 하던데 추후 다른 cpu로 업그레이드 할 생각입니다.


Q1. 실습용으로 이정도 하드웨어면 충분할까요? 보드나 파워가 망가지면 해당 노드는 파기할 생각입니다.

Q2. 그래도 HPC를 제대로 공부하려면 BMC가 포함된 보드를 구매하는게 나을까요

Q3. 하나의 노드가 망가질 때 다른 노드도 함께 망가질 일은 없을까요?


이 외에도 HPC 관련 산업 종사자 또는 다뤄보신 분들이 계시다면 조언 부탁드립니다.

가르침에 감사드립니다.


쪽팔리면 질문하지 맙시다. 소중한 답변 댓글을 삭제하는건 부끄러운 일 입니다 

ªÀº±Û Àϼö·Ï ½ÅÁßÇÏ°Ô.
¹æÇâÀÌ Á» ´Þ¶ó¿ä

Ŭ·¯½ºÅÍ´Â ¿©·¯´ë¸¦ ÇÑ´ë ó·³ »ç¿ëÇÏ´Â ¸ñÀûÀÌ°í..

³×Æ®¿öÅ©¿Í µ¥ÀÌÅÍ À̵¿ ´ë¿ªÆø ¹®Á¦¿¡ ½Ã´Þ¸³´Ï´Ù.

±×·¡¼­ Ethernet ÀÌ ´À·Á¼­ ÀÎÇǴϺ¥µå¸¦ »ç¿ëÇÕ´Ï´Ù.
(Infiniband 40G/100G/200Gbps)

1¹ø ÄÄÇ»ÅÍ°¡ 2¹ø ÄÄÇ»ÅÍÀÇ ¸Þ¸ð¸®¸¦ Á¢±ÙÇϴµ¥..
2¹ø OSÀÇ °£¼·À» ¹Þ½À´Ï´Ù. ±×·¯¸é ´À·ÁÁ®¿ä..
±×·¡¼­ RDMA¸¦ »ç¿ëÇÕ´Ï´Ù.  ¼­·Î OS °£¼·¾øÀÌ ´Ù¸¥ ÄÄÇ»ÅÍÀÇ ¸Þ¸ð¸®¿Í NVMe, GPU¸¦
¸¶Ä¡ ³ªÀÇ Local Device ¸¦ »ç¿ëÇÏ´Â °Í ó·³ Á¦ÇÑ ¾øÀÌ ºü¸£°Ô ¾µ ¼ö ÀÖ¾î¾ß ÇÕ´Ï´Ù.

PC³ª ¼­¹ö¿Í´Â ¶Ç ´Ù¸¥ °³³äÀÔ´Ï´Ù... ½´ÆÛÄÄÇ»ÅÍ ÀÎ °ÍÀÌÁÒ..

ÀϹÝÀûÀº HPC¿¡¼­ ¸»Çϴ Ŭ·¯½ºÅÍ¿¡ ´ëÇÑ °ßÇØÀÔ´Ï´Ù.
SLURM¿¡ ´ëÇÑ °ßÇØ´Â ¾Æ´Õ´Ï´Ù.
     
´äº¯ °¨»çµå¸³´Ï´Ù.
IB¿Í RDMAÀÇ °³³äÀº ´ë·« ¾Ë°í ÀÖ¾úÁö¸¸ ºñ¿ë¹®Á¦ ¶§¹®¿¡ Á¦¿ÜÇß½À´Ï´Ù.
¿ì¼± MPI ¿Í OPENMP¸¦ ½Ç½ÀÇϴµ¥ ÃÊÁ¡À» µÎ°í ÀÖ½À´Ï´Ù.
¸î°¡Áö Ãß°¡ÀûÀ¸·Î ¿©ÂåºÁµµ µÉ±î¿ä?

Q1. infiniband ¾øÀÌ ½Ç½ÀÇÏ´Â°Ç ¹ÝÂÊÂ¥¸® ÇнÀÀÌ µÉ±î¿ä?
mellanox connect x3 40g nic °¡ »ý°¢º¸´Ù´Â Àú·ÅÇÑ°Í °°¾Æ ib ½ºÀ§Ä¡¿Í ÇÔ²² ±¸ÃàÇÒ »ý°¢µµ ÇغýÀ´Ï´Ù.

Q2. ¿©±â¼­ ¾ð±ÞÇϽŠNVME´Â ij½Ì¿ëÀΰ¡¿ä?

Q3. ½ÇÁ¦ HPC¿¡¼­´Â °¢ ³ëµå¿¡ µ¶¸³ÀûÀ¸·Î OS¸¦ ¼³Ä¡Çϳª¿ä?

Q4. HPC È°¿ë¿¡ ÃÊÁ¡À» µÐ´Ù¸é ¾îµð¼­ºÎÅÍ °øºÎÇÏ´Â°Ô ÁÁÀ»±î¿ä?
Á¦°¡ ÄÄÇ»ÅÍ Àü°øÀÌ ¾Æ´Ï¶ó Çб³¿¡¼­ ¹è¿ì±â´Â ¾î·Á¿ï°Í °°½À´Ï´Ù.

ÀÌ·¸°Ô µµ¿ò Áּż­ Á¤¸» °¨»çÇÕ´Ï´Ù!!
          
openMPI¿Í openMP´Â ÀüÇô ´Ù¸¨´Ï´Ù.
openMP´Â ÇϳªÀÇ ÄÄÇ»ÅÍ ³»¿¡¼­ multi core¸¦ »ç¿ëÇϵµ·Ï ÀÛ¾÷À» ½±°Ô ºÐ¹èÇÏ´Â °ÍÀÌ°í, ÄÄÆÄÀÏ·¯ È®ÀåÀ¸·Î ¼Õ½±°Ô for¹®À» µîÀ» ³ª´²ÁÖµµ·Ï ÇÏ´Â ³à¼®ÀÔ´Ï´Ù.
openMPI´Â ³×Æ®¿öÅ©¸¦ ÅëÇØ ´Ù¸¥ ÄÄÇ»ÅÍ¿¡¼­ ¿¬»êÀ» Çϵµ·Ï ÇØÁÖ´Â ±â´ÉÀÔ´Ï´Ù.
slurmÀº ¿öÅ©·Îµå °ü¸®ÀÚ·Î, Ŭ·¯½ºÅÍ È¯°æ¿¡¼­ N°³ÀÇ PC¿¡ °ÉÃÄ mpi·Î ±¸ÇöµÈ ÇÁ·Î±×·¥À» ¿©·¯ »ç¿ëÀÚ°¡ ÀÏ°¨À» ¿¹¾àÇÏ¿© Ŭ·¯½ºÅÍ ÀüüÀÇ »ç¿ë·®À» ÃÖ´ëÇÑ ²ø¾î³»±â À§ÇÑ °ü¸®ÀÚ ÀÔ´Ï´Ù.

ÀÏ´Ü ÇöÀç °øºÎÇϽ÷Á´Â°Ô Ŭ·¯½ºÅÍ ÂÊÀ̶ó¸é
Â÷¶ó¸® ½´ÆÛÄÄÇ»Æà ¼¾ÅÍÀÇ ¿î¿µ ¸Þ´º¾ó°ú ÇÁ·Î±×·¡¹Ö ¸Þ´º¾óÀ» º¸½Ã¸é °£Á¢ÀûÀ¸·Î
Ŭ·¯½ºÅÍ°¡ ¾î¶»°Ô µ¹¾Æ°¡´ÂÁö ºü¸£°Ô ¾Æ½Ç¼ö ÀÖÀ» °ÍÀÌ°í

±× ÀÌÈÄ¿¡´Â slurm À̳ª openhpc, pbs µîÀ¸·Î Ŭ·¯½ºÅÍ¿¡ ±×·± ½Ã½ºÅÛÀ» ±¸ÃàÇÏ´Â ÂÊÀ¸·Î ¹æÇâÀ» ÀâÀ¸½Ã¸é ¾î¶³±î ÇÕ´Ï´Ù.
´Ù¸¸, ÀÌ·±½ÄÀÇ ¿¬»ê Ŭ·¯½ºÅÍ ±¸ÃàÀº HPC/½´ÆÛÄÄÇ»ÅÍ ÂÊ¿¡ ÁÖ·Î Àû¿ëµÇÁö
Ŭ¶ó¿ìµå ÂÊ¿¡¼­´Â hpc·Î ±¸ÇöµÇÁø ¾Ê½À´Ï´Ù.
½Ç½ÀÀä, ¹¹.
±×³É »ý°¢´ë·Î ÇÏ´Â °ÅÁÒ.
ÀÎÇǴϹêµåÀÏ ÇÊ¿ä´Â ¾ø¾î¿ä.
¸ÞÀκ¸µå¿¡ BMC°¡ ²À ÀÖ¾î¾ß ÇÏ´Â °Ç ¾Æ´Ï¿¹¿ä.
¿Âº¸µå ·£À¸·Î µÅ¿ä.
°íÀå³­ ³ëµå´Â °è»êÇÒ ¶§ »©¹ö¸®´Â °ÅÁÒ.
´Ù¸¥ ³ëµå¿¡ ¿µÇâÀ» ÁÖÁø ¾Ê¾Æ¿ä.
     
³ëµå ¸Þ¸ð¸®´Â Á» ºÎÁ·ÇØ¿ä.
dateno1 02-28
¿äÁò ½Ã´ë¿¡ ±×·± ½ºÆÑÀ¸·Î ±¸ÃàÇϽDz¨¶ó¸é Â÷¶ó¸® Á» ±¦ÂúÀº ÄÄ¿¡¼­ °¡»óÀ¸·Î ¿©·¯°³ Æļ¼¿ä (°¡»óÀÌ Àú·± °íöº¸´Ü ºü¸§)

°¡»óÀ̶ó¸é BMC ¾ø¾îµµ ±×´Ú ¹®Á¦ ¾ø½À´Ï´Ù

¸ÞÀνºÆ®¸²µµ ·¥ 256±â°¡±îÁö µÇ´Ùº¸´Ï ½Ç½À¿ëÀ¸·Î ±¸ÃàÇϴµ¥ ¾Æ¹« ÁöÀå ¾ø½À´Ï´Ù
slurm À» ¾²½Å´Ù´Ï Áö±ÝÀº ±×¸¸µÐ ¹Ú»ç°úÁ¤ Dry ·¦ÀÌ »ý°¢³ª´Â±º¿ä. È­ÀÌÆà ÇÏ½Ã±æ ¹Ù¶ø´Ï´Ù!


QnA
Á¦¸ñPage 219/5686
2014-05   4985374   Á¤ÀºÁØ1
2015-12   1521349   ¹é¸Þ°¡
2022-08   1442   ¹Ì¼ö¸Ç
2023-01   1442   È­¶õ
2022-07   1442   ÀÓÁ¾¿­
2022-04   1442   ¿µ»êȸ»ó
2023-08   1442   Skyhard
02-01   1442   Caig
2021-12   1443   ÇÁ·Î½Ã¾Æ
2023-02   1443   ÀϹÝÀ¯Àú
2023-04   1443   ¹üÀÌ´Ô
2023-05   1443   ±Ã±×¸Þ
02-22   1443   zbxhdbrhr
2022-01   1443   ºñ½Ñ´Ü¹«Áö
08-15   1444   »ó¿ì
07-05   1444   ÆÄÇÇǪÆä
2023-07   1444   ÁÒ½´¾Æ
01-16   1444   ¹Ì´ã
2023-02   1444   ½ÅÀº¿Ö
2022-02   1444   cicatrix
04-22   1444   ½ÅÀº¿Ö
2022-06   1444   °ú¾Ï