전력·쿨링·GPU 도입 필수 점검 5항목

온프레미스 LLM 도입 전 전력·쿨링·GPU 요구량과 비용, 운영 리스크를 5가지 핵심 점검항목으로 정리합니다.

매일 엑셀 반복 작업에 시달리던 실무자 A씨는 LLM 도입으로 내부 자동화를 검토했다. 인프라 담당자와의 협의 과정에서 전력 부족과 쿨링 미비로 구축 일정이 지연되는 사례가 빈번하다는 사실을 확인했다.

현장 결정에 바로 쓸 수 있는 체크리스트와 계산 예시를 제시한다.

주요 내용

총 전력 용량(서비스 입구 전력) 확인: 건물 배전반에서 확보 가능한 총 kW를 파악한다. 증설이나 분배 개선이 필요하면 전력업체와 조기 협의.
GPU별 전력소모(TDP) 산정: 서버당 GPU 수 × GPU TDP 합산 후 CPU·스토리지 소비 전력과 합산한다.
쿨링 용량 평가: 랙당 발생 열량(kW)을 기준으로 CRAC/냉수/인어로우 쿨링 설계 여부를 결정한다.
전력 연속성 계획: UPS 정격, 자동발전기 연료계획, PDU 이중화 수준을 점검한다.
현장 배선·차단기 규격 확인: 3상 배전, 케이블 규격(예: 32A/63A), 인러시(inrush) 전류 고려.

목표: 개발용 LLM PoC용 2대의 GPU 랙(각 랙 8 GPU, 서버 구성: 4U x 2노드) 설치.

가정 및 입력값:

계산:

결론: 소규모라도 GPU 고집적 랙은 전력 및 쿨링 설계가 미흡하면 매월 예상외의 비용과 가동중단이 발생한다. 초기사업계획 단계에서 배전 용량과 PUE 가정치를 문서화해야 한다.

초기 산정 시 GPU TDP만 보지 말고 부팅·부하 전류(inrush)와 펌웨어 업데이트 시 순간 전력 상승을 25% 여유치로 반영하면 후보설계 변경 수를 줄일 수 있다.

옵션	GPU 모델	GPU 수(랙)	서버 IT 전력(대략)	랙 전력(PUE 1.4 적용)	월전력비(2랙 기준, $0.12/kWh)
저집적(절충)	NVIDIA A40	4	4 × 300W + 500W = 1.7kW	1.7kW ×1.4 = 2.38kW	$520
고성능(일반)	NVIDIA A100	8	8 × 400W + 500W = 3.7kW	3.7kW ×1.4 = 5.18kW	$1,248
최고성능	NVIDIA H100	8	8 × 700W + 500W = 6.1kW	6.1kW ×1.4 = 8.54kW	$1,476

분전반 차단기 규격 미스매치: 설계상 3상 32A가 필요하지만 현장에서는 1상 분기만 가능한 경우가 있음. 초기 전력 도면과 현장 실측을 교차검증할 것.
PDU 용량·이중화 부족: 단일 PDU에 모든 노드를 연결하면 유지보수 시 전체 셧다운 필요. N+1 또는 A/B PDU 설계 권장.
쿨링 과소평가: 랙 전력 6kW 이상은 기존 CRAC로는 한계가 있다. 인-Row 또는 액체냉각 대안을 미리 검토.
케이블 게이지와 길이: 전압강하로 인해 단말 전력 저하가 발생. 케이블 규격 산정 주의.
화재진압 및 서브플랜: GPU 밀집 환경에서 기존 물분무식 소화설비가 장비에 위험을 줄 수 있다. 가스계 소화와 장비 보호 정책을 함께 설계.
냉각수 품질·부식: 냉수 루프 사용 시 미네랄 농도와 부식 억제 처리를 문서화해야 장비 보증 문제를 줄인다.

PoC 단계에서 월간 전력비와 초기 설비투자(OPEX vs CAPEX)를 동일 스프레드시트에 나란히 기재하면 의사결정자 설득 자료로 유용하다.