TinyML 모델 경량화 연산·메모리별 비교 분석

임베디드에서 실용 가능한 TinyML 경량화 방법을 연산 유형별(정밀도, 연산자), 메모리 항목별(가중치·활성화)로 비교해 실행 가능한 체크리스트와 성능 추정치를 제공.

매일 엑셀 반복 작업에 시달리던 실무자 A씨는 센서 데이터 전처리와 간단한 분류 모델을 마이크로컨트롤러(MCU)에 올려 배터리와 비용을 절감하려 한다. 인공지능 인사이트 에디토리얼 팀의 분석 결과는 TinyML 경량화는 단일 기법보다 연산·메모리 제약에 맞춘 조합 전략이 효율적이라는 점을 강조한다. 다음 내용은 기기 제원(플래시·SRAM·CPU 주파수), 요구 지연시간, 허용 정확도 손실을 입력으로 사용해 기법을 선택하는 실무 안내서다.

Toggle

실무자가 가장 먼저 확인할 내용

하드웨어 제약을 정량화하라. 플래시(비휘발성)와 SRAM(실행중 활성화용) 용량을 각각 확정하면 선택 가능한 경량화 범위가 명확해진다. 예: 256 KB 플래시/64 KB SRAM이면 모델 가중치와 임시 활성화 합이 그 범위 내여야 한다.

연산 유형(정수연산 가능 여부, 하드웨어 가속기 유무)을 파악하라. 일부 MCU는 하드웨어 부동소수점(FPU)을 제공한다. 정수 전용 연산만 지원하면 정수 양자화(int8, int16) 중심의 접근이 필요하다.

운영 요구사항을 정의하라. 응답시간 100 ms 이하, 배터리 1주 이상 유지 같은 실측 목표를 먼저 적시하면 모델 선택과 압축 한계가 자동으로 결정된다.

사례 분석: 실무 적용 예제

사례: 기획자 B씨가 32-bit MCU(120 MHz, 512 KB 플래시, 128 KB SRAM)에 동작하는 음성 키워드 감지기를 만들기로 했다. 원본 모델(ConvNet, float32, 1.2M 파라미터)은 플래시 요구량이 4.8 MB로 불가능했다. 적용한 단계는 다음과 같다.

모델 아키텍처 축소: depthwise separable conv로 파라미터 4배 감축.
프루닝 30% 적용 후 파라미터 정렬 및 sparse->dense 변환으로 메모리 이득 확보.
지식 증류: 경량 학생 모델로 원본 정확도 대비 -1.8% 수준 유지.
양자화: post-training int8로 변환해 가중치 메모리 4배 감소 및 연산을 정수로 전환.

결과: 플래시 사용 480 KB, SRAM 임시버퍼 32 KB, 평균 지연 45 ms, 전력 소모 35% 개선. 배포 후 필드 AB 실험에서 사용자 인식률이 허용 범위 내로 확인되었다.

💡 인공지능 인사이드 팁: 양자화 후 반드시 실제 타겟 하드웨어에서 엔드-투-엔드 지연 및 메모리 사용량을 측정하라. 시뮬레이터 수치와 실제기기 결과가 수십 퍼센트 차이날 수 있다.

데이터 비교표: 연산 정밀도·메모리 영향

기법 / 지표	가중치 메모리	활성화 메모리	연산 유형	예상 정확도 변화(대표 범위)
float32 (baseline)	1.0×	1.0×	부동소수점	기준
float16 (mixed)	0.5×	0.5×	반정밀도 부동소수점	-0~1%
int8 (per-channel)	0.25×	0.25×	정수	-0.5~2%
int8 (per-tensor)	0.25×	0.25×	정수	-1~3%
binary / ternary	0.0625×~0.125×	0.0625×~0.125×	비트연산	-5~20% (모델 민감도 높음)
프루닝(30~70%) + 압축	0.3×~0.7×	유사	일반 연산	-0.5~3% (재학습 시 회복)

위 표는 전형적 추정치다. 모델 구조, 데이터셋 특성, 재학습 여부에 따라 편차가 크다. 예를 들어 RNN 계열은 양자화 민감도가 높아 int8에서 정확도 하락 폭이 커질 수 있다.

테스트 중 발견된 주의사항

정수 양자화만으로 해결되지 않는 문제들이 존재한다. 대표적 항목:

활성화 버퍼 크기: 가중치 축소 후에도 중간 활성화(특히 합성곱 레이어의 출력)가 SRAM 한계를 초과할 수 있다. 레이어별 peak 메모리 분석을 권장한다.
퍼널링(Operator Fusion) 미지원: 일부 툴체인에서 연산 합치기가 자동화되지 않으면 런타임 오버헤드가 발생한다.
비트단위 연산의 HW 가속 필요성: binary/ternary 기법은 전용 가속기 없이는 CPU에서 느리거나 비효율적일 수 있다.
양자화-친화적 학습 필요: PTQ(post-training quantization)는 단순하지만 성능 손실이 크면 QAT(quantization-aware training)를 적용해야 한다.