전력·쿨링·GPU 도입 필수 점검 5항목

공정위문구

온프레미스 LLM 도입 전 전력·쿨링·GPU 요구량과 비용, 운영 리스크를 5가지 핵심 점검항목으로 정리합니다.

매일 엑셀 반복 작업에 시달리던 실무자 A씨는 LLM 도입으로 내부 자동화를 검토했다. 인프라 담당자와의 협의 과정에서 전력 부족과 쿨링 미비로 구축 일정이 지연되는 사례가 빈번하다는 사실을 확인했다.

현장 결정에 바로 쓸 수 있는 체크리스트와 계산 예시를 제시한다.

주요 내용

  • 총 전력 용량(서비스 입구 전력) 확인: 건물 배전반에서 확보 가능한 총 kW를 파악한다. 증설이나 분배 개선이 필요하면 전력업체와 조기 협의.
  • GPU별 전력소모(TDP) 산정: 서버당 GPU 수 × GPU TDP 합산 후 CPU·스토리지 소비 전력과 합산한다.
  • 쿨링 용량 평가: 랙당 발생 열량(kW)을 기준으로 CRAC/냉수/인어로우 쿨링 설계 여부를 결정한다.
  • 전력 연속성 계획: UPS 정격, 자동발전기 연료계획, PDU 이중화 수준을 점검한다.
  • 현장 배선·차단기 규격 확인: 3상 배전, 케이블 규격(예: 32A/63A), 인러시(inrush) 전류 고려.
랙 단면도: GPU 서버와 공조배치 이미지

사례 분석 – A씨의 소규모 PoC(Proof of Concept) 시나리오

목표: 개발용 LLM PoC용 2대의 GPU 랙(각 랙 8 GPU, 서버 구성: 4U x 2노드) 설치.

가정 및 입력값:

  • GPU 모델: NVIDIA H100, GPU TDP 700W
  • 서버 기타 소비(CPU, 메모리, 스토리지): 500W
  • PUE(전력효율계수): 1.4
  • 전력요금: $0.12/kWh

계산:

  • 랙당 GPU 전력 = 8 × 700W = 5,600W
  • 서버 기타 = 500W → 랙 총 IT 전력 = 6,100W = 6.1kW
  • PUE 반영 랙 전력 = 6.1kW × 1.4 = 8.54kW
  • 2랙 총 소비전력 = 17.08kW
  • 월간 에너지(kWh) = 17.08kW × 24h × 30d ≈ 12,300 kWh → 월전력비 ≈ $1,476

결론: 소규모라도 GPU 고집적 랙은 전력 및 쿨링 설계가 미흡하면 매월 예상외의 비용과 가동중단이 발생한다. 초기사업계획 단계에서 배전 용량과 PUE 가정치를 문서화해야 한다.

초기 산정 시 GPU TDP만 보지 말고 부팅·부하 전류(inrush)와 펌웨어 업데이트 시 순간 전력 상승을 25% 여유치로 반영하면 후보설계 변경 수를 줄일 수 있다.

데이터 비교 표 – GPU 선택에 따른 전력·월비용 예측

옵션 GPU 모델 GPU 수(랙) 서버 IT 전력(대략) 랙 전력(PUE 1.4 적용) 월전력비(2랙 기준, $0.12/kWh)
저집적(절충) NVIDIA A40 4 4 × 300W + 500W = 1.7kW 1.7kW ×1.4 = 2.38kW $520
고성능(일반) NVIDIA A100 8 8 × 400W + 500W = 3.7kW 3.7kW ×1.4 = 5.18kW $1,248
최고성능 NVIDIA H100 8 8 × 700W + 500W = 6.1kW 6.1kW ×1.4 = 8.54kW $1,476
랙별 열밀도와 핫·콜드 에일 구성도

테스트 중 발견된 주의사항

  • 분전반 차단기 규격 미스매치: 설계상 3상 32A가 필요하지만 현장에서는 1상 분기만 가능한 경우가 있음. 초기 전력 도면과 현장 실측을 교차검증할 것.
  • PDU 용량·이중화 부족: 단일 PDU에 모든 노드를 연결하면 유지보수 시 전체 셧다운 필요. N+1 또는 A/B PDU 설계 권장.
  • 쿨링 과소평가: 랙 전력 6kW 이상은 기존 CRAC로는 한계가 있다. 인-Row 또는 액체냉각 대안을 미리 검토.
  • 케이블 게이지와 길이: 전압강하로 인해 단말 전력 저하가 발생. 케이블 규격 산정 주의.
  • 화재진압 및 서브플랜: GPU 밀집 환경에서 기존 물분무식 소화설비가 장비에 위험을 줄 수 있다. 가스계 소화와 장비 보호 정책을 함께 설계.
  • 냉각수 품질·부식: 냉수 루프 사용 시 미네랄 농도와 부식 억제 처리를 문서화해야 장비 보증 문제를 줄인다.

PoC 단계에서 월간 전력비와 초기 설비투자(OPEX vs CAPEX)를 동일 스프레드시트에 나란히 기재하면 의사결정자 설득 자료로 유용하다.

도입 결정 체크리스트(실행 가능한 액션)

  1. 현장 실측 보고서 확보: 전력, 배관, 공조, 바닥허용하중 보고서를 수집하고 전력업체와 예비협의서(Sign-off) 확보.
  2. 전력 산정 템플릿 적용: GPU TDP 합산 + 기타 장비 + 25% 버퍼 + PUE를 표준 템플릿에 반영해 산정.
  3. 쿨링 전략 선택: 랙당 3~6kW는 기존 공조 가능, 6kW 이상은 인-Row 또는 액체냉각 고려. 냉각 CAPEX와 운영비를 비교 산정.
  4. 고가용성 설계: PDU 이중화, UPS 정격 및 자동발전기 용량을 서비스 등급에 맞춰 설계. RTO/RPO 목표를 명확히 정의.
  5. 운영 매뉴얼 작성: 전력 이벤트(과부하, UPS 전환) 체크리스트와 긴급복구 프로세스를 문서화하고 정기 점검 주기를 설정.

추가 자료(공식 문서):

🔗 NVIDIA Data Center 공식 페이지

🔗 Microsoft Azure GPU 문서

🔗 OpenAI 공식 블로그

🚀 온프레미스 vs 클라우드 LLM 서빙 비교

🚀 K8s로 LLM GPU 비용 최적화 설정

🚀 기업용 로컬 AI 보안·운영 체크리스트

핵심 실무 체크리스트(요약): 1) 서비스 입구 전력 확인 2) GPU TDP+버퍼 산정 3) 쿨링 설계(랙 kW 기준) 4) PDU/UPS 이중화 5) 운영 매뉴얼 및 긴급대응 절차 확보.

함께 보면 좋은 관련 글 🤖

Written by

인공지능 인사이드 에디터

기술의 화려함보다 그 이면의 논리와 실질적인 가치에 집중합니다. 데이터와 팩트를 기반으로 인공지능 시대를 항해하는 독자들에게 명확한 인사이트를 전달하는 것을 목표로 삼고 있습니다.

본 콘텐츠는 객관적인 분석을 바탕으로 작성되었으며, 최종적인 기술 판단의 책임은 이용자에게 있습니다.