K8s로 LLM GPU 비용 최적화 설정

실무 적용 시뮬레이션: A씨의 LLM GPU 비용 절감 플랜
구성 요소별 체크리스트 – LLM·GPU·K8s 연동 포인트
구체적 매니페스트 예제(실전용): KEDA + Cluster Autoscaler 패턴
성능/비용 비교표 – 도입 전/후 가시적 수치
운영 시 주의해야 할 항목(핵심 룰셋)
설계 시 체크할 핵심 지표와 SLA 맵핑
주의사항: 흔히 하는 실수와 그 해결책
함께 보면 좋은 관련 글 🤖

K8s 기반 LLM 추론 워크로드에서 GPU 비용을 30% 이상 절감하는 실전 가이드 – 아키텍처, 매트릭스, 매니페스트, 운영 체크리스트까지.

오늘의 AI 기술 인사이트 핵심 포인트 3가지:
- GPU는 노드 자원, 파드 확장과 노드 확장 조합으로 비용/성능 균형을 맞춰야 한다.
- 대기열 기반 오토스케일링(KEDA)과 노드 그룹 자동 확장(Cluster Autoscaler)을 함께 설계하면 비용 효율이 극대화된다.
- 모니터링(DCGM → Prometheus → Adapter)과 안전한 스케일다운 정책이 ‘비용 절감 + 안정성’의 핵심이다.

매일 엑셀 반복 작업에 시달리던 실무자 A씨는 최근 팀의 LLM 추론 서비스를 클라우드로 이전하면서 한 달 치 GPU 비용 청구서에 멍해졌다. AI 서비스 도입을 고민하던 기획자 B씨는 사용량 급증 시 SLA를 지키지 못할까 걱정이다.

두 사례는 동일한 설계 결함에서 출발한다: ‘GPU 자원에 대한 수요-공급 연동'(autoscaling) 설계 부재.

실무 적용 시뮬레이션: A씨의 LLM GPU 비용 절감 플랜

사례 분석 방식으로 접근하면 문제점과 솔루션이 명확해진다. A씨의 기존 구조는 모델 서버(파드) 1개에 GPU 1개를 할당하고 트래픽 폭주 시 사람이 수동으로 노드 풀을 늘리는 방식이었다.

문제는 다음과 같다.

낮은 평균 GPU 이용률: 피크 대비 평상시 유휴 GPU가 많음
콜드 스타트와 예약(Pre-warm) 부재: 요청 폭주 시 지연 증가
자동화된 안전장치 미비: 과도한 스케일업/스케일다운으로 비용 불안정

권장 아키텍처 핵심은 ‘파드 레벨의 수평 확장(HPA/KEDA) + 노드 레벨의 GPU 노드 오토스케일링(Cluster Autoscaler)’의 조합이다. 파드는 요청 큐(예: Redis 또는 Kafka) 길이나 모델 응답률 기반으로 수평 확장하고, 노드는 파드 스케줄 불가 시 클러스터 오토스케일러가 GPU 노드 풀을 증설한다.

구성 요소별 체크리스트 – LLM·GPU·K8s 연동 포인트

GPU 디바이스 플러그인 설치: NVIDIA device-plugin 또는 GPU operator로 노드에 GPU를 노출.
GPU 메트릭 수집: DCGM Exporter를 DaemonSet으로 배포 → Prometheus 수집 → Prometheus Adapter로 K8s에 노출.
파드 스케일링 트리거 설계:
1. 실시간 요청 기반: KEDA(ScaledObject)로 Redis/Kafka 큐 길이 또는 HTTP 요청률 스케일링.
2. 리소스 기반: HPA + custom metrics(prometheus-adapter)로 GPU 사용률/메모리 사용률에 따라 확장.
3. 노드 오토스케일링: Cluster Autoscaler를 GPU 전용 노드풀에 적용, taint/toleration으로 일반 워크로드 격리.
4. 스케일 다운 방어: 최소 가동 인스턴스, grace period, scale-down-delay 설정으로 SLA 보호.

GPU는 노드 자원이므로 ‘파드만’ 늘려도 스케줄 불가 상황이 발생한다. 파드 스케일 정책을 만들 때는 항상 Cluster Autoscaler와의 연계를 먼저 설계하라.

구체적 매니페스트 예제(실전용): KEDA + Cluster Autoscaler 패턴

아래 예시는 Redis 큐 길이를 기준으로 파드를 늘리고, 파드 컨디션에 따라 클러스터가 GPU 노드를 추가하도록 설계한 핵심 YAML 이다. 실제 환경에 맞춰 이미지, 리소스 요청, 노드풀 이름을 바꿔 적용해야 한다.

# 1) Deployment (모델 서버, GPU 요청)
apiVersion: apps/v1
kind: Deployment
metadata:
 name: llm-inference
spec:
 replicas: 0
 selector:
 matchLabels:
 app: llm
 template:
 metadata:
 labels:
 app: llm
 spec:
 containers:
 - name: model
 image: example/llm-serving:latest
 resources:
 limits:
 nvidia.com/gpu: 1
 requests:
 cpu: "4"
 memory: "16Gi"
 nvidia.com/gpu: 1
 env:
 - name: REDIS_QUEUE
 value: "llm-queue"
---
# 2) KEDA ScaledObject (Redis list length 기준)
apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
 name: llm-scaledobject
spec:
 scaleTargetRef:
 name: llm-inference
 pollingInterval: 15
 cooldownPeriod: 300
 minReplicaCount: 0
 maxReplicaCount: 10
 triggers:
 - type: redis
 metadata:
 address: redis-master:6379
 listName: llm-queue
 listLength: "5"

Cluster Autoscaler는 클러스터 프로비저닝(Cloud Provider)별 설정이 필요하다. GPU 전용 노드풀은 taint와 label을 주고, 파드에는 toleration과 nodeSelector를 지정해야 한다.

아래는 GKE/eks/aks 공통 원칙이다: 노드풀 최소 0/1, 최대 적정치, scale-down-delay 10분 이상 권장.

성능/비용 비교표 – 도입 전/후 가시적 수치

항목	도입 전 (수동/고정 GPU)	도입 후 (K8s 자동스케일링)
평균 GPU 이용률	25%	70%+
월간 GPU 비용	약 $12,000	약 $8,000 (절감 33%)
평균 응답 지연(99th)	1.8s	1.1s (프리워밍+배칭 적용 시)
오퍼레이션 자동화 수준	낮음(수동 개입 필요)	높음(메트릭 기반 자동 조정)