成學

[Paper Review] Evidential Knowledge Distillation

成學 — Wed, 22 Apr 2026 21:41:21 +0900

This is a Korean review of

"Evidential Knowledge Distillation"
presented at ICCV 2025.

TL;DR

기존의 로짓 기반 지식 증류 방법들은 확률 분포를 singularly deterministic으로 취급하여, 모델 예측에 내재된 본질적인 불확실성을 무시함.
확률을 고정된 값이 아닌, second-order Dirichlet 분포에 의해 지배되는 확률 변수로 재정의하여 지식의 표현력을 확장함.
macro(2차 분포의 기댓값을 정렬하여 클래스 간의 상대적 비율 관계를 최적화)와 micro(2차 분포 자체를 정렬하여 모델 출력의 수치적 크기를 일치)수준의 지식 전달을 결합한 새로운 증류 기법을 제안함.
PAC-Bayesian 이론을 활용하여 EKD의 최적화 목표가 학생 모델의 expected risk에 대한 upper bound을 직접 최소화하는 것임을 증명함.

Introduction

기존 KD 방법들은 categorical distribution(=prediction)이 유일하고 확정된 값(singularly deterministic)이라고 가정함.
특정 샘플이 특정 클래스에 속할 확률이 확정적이며 이를 DNN으로 근사할 수 있다고 생각하지만, 실제로는 유한한 데이터와 모델 용량의 한계로 인해 예측에 본질적인 불확실성이 존재함.
- e.g., 서로 다른 초기 weights를 가진 네트워크는 같은 test sample에 대해서도 다른 prediction을 만들어냄.
이를 극복하기 위해, categorical distribution을 second-order distribution (Dirichlet distribution)에 의해 지배되는 random variable로 취급함.
macro와 micro 관점을 통합하는 Evidential Knowledge Distillation을 제안함.
- Macro: 2차 분포를 기댓값 연산을 통해 1차 분포로 축소하여 Dirichlet 분포의 중심점을 일치시킴. 이를 통해, 클래스 간의 상대적 비율 관계(e.g., 확신의 정도가 담긴 지도에서 무게 중심을 의미함.)를 최적화함.
- Micro: 2차 분포 자체를 정렬(e.g., 중심점뿐만 아니라 확신 지도의 모양과 깊이를 그대로 학습)하여 모델 출력의 크기를 정제하고 세밀한 분류 구조를 전달함.

Method

Preliminaries

분류 작업에서 categorical probability vector p를 고정된 값이 아닌, Dirichlet 분포를 따르는 확률 변수로 취급함.
네트워크의 출력 로짓 z를 evidential activation function(exp)을 통해 비음수 evidence vector e로 변환함.
evidentional vector e와 사전 가중치 \lambda 를 결합하여 Dirichlet 분포 Dir(\alpha)를 규정하는 파라미터 \alpha를 생성함.
EDL cross-entropy loss는 아래의 수식을 통해 계산함.
evidence 수집을 극대화하기 위해, 교사 및 학생 모델의 모든 훈련 단계에서 기존 cross-entropy 대신 이 손실 함수를 사용함.

Evidential Knowledge Distillation

기존 KD들은 categorical probability를 singularly deterministic value로 보기 때문에 모델 예측의 uncertainty를 간과함. (제한적인 granular information 공유)
네트워크 예측의 불확실성을 포함하기 위해 second-order Dirichlet 분포를 활용함. 구체적으로는, 2차 분포를 평균 내어 얻은 1차 분포(macro)와 2차 분포 자체(micro)를 모두 정렬하는 방식을 활용함.
Macro (first-order distillation)
Micro (second-order distillation)
최종 손실 함수

Theoretical Analysis

EKD의 손실 함수에 대한 이론적 근거를 제공하기 위해 PAC-Bayesian 이론을 적용함. 훈련 샘플에서의 정렬을 바탕으로 전체 데이터 분포에 대한 네트워크 간 정렬 상태를 추정하는 것이 목표임.
네트워크가 데이터를 학습한 결과물인 Dirichlet 분포는, 사실상 수많은 잠재적 분류기들 중에서 어떤 분류기가 더 타당한지를 나타내는 확률적인 지도(posterior distribution) 역할을 함.
기대 위험은 전체 데이터 분포 D에 대해 학생 모델이 틀릴 실제 위험이고, 경험적 위험은 현재 가진 훈련 데이터셋에서 측정한 위험이라고 할때, 학생의 기대 위험은 경험적 위험, 2차 분포간 유사도 (KL 발산), 데이터 샘플 수와 관련된 상수 (C)의 합보다 작거나 같음.
기존 KD 방식처럼, 단순히 경험적 위험만 줄이는 것은 실전에서의 기대 위험 감소를 보장하지 못하며, 교사의 일반화 성능을 전달하는 데 불완전함.
EKD는 위에서 도출된 수학적 upper bound를 직접적인 최적화 목표로 함. 즉, 정답 비율(first-order)와 분포 형태(second-order)를 동시에 정렬함으로써 학생의 실전 위험을 최소화하려고 함..

Toy Case

Experiments

Conclusion

본 논문은 evidential second-order distribution을 사용하여 예측 불확실성을 포착하고, 보다 포괄적인 knowledge representation을 제공함.
EKD 방법은 macro와 micro 수준 모두에서 지식 전달이 가능하도록 설계됨.
- macro에서는 second-order의 기댓값(global characteristics)을 정렬함으로써 학생 모델 출력의 클래스 간 비율 최적화를 향상시킴.
- micro에서는 second-order distribution을 정렬하여 학생 모델 출력의 수치적 크기를 일치시킴.
PAC-Bayesian 이론을 통해 EKD가 학생 모델의 기대 위험에 대한 upper bound을 직접 최적화한다는 것을 증명함.

[Paper Review] Knowledge Distillation with Refined Logits

成學 — Sun, 19 Apr 2026 21:50:29 +0900

This is a Korean review of

"Knowledge Distillation with Refined Logits"
presented at ICCV 2025.

TL;DR

고성능 교사 모델도 틀린 예측을 할 수 있으며, 이를 무조건 따르게 하면 학생 모델의 학습 목표가 정답 레이블과 충돌하게 됨. 기존의 correction-based method와 달리, class correlation을 유지하면서 오답을 정제하는 방식을 제안함.
sample confidence를 통해 학생이 정답에 대해 가져야 할 적절한 confidence 수준을 가르치고, masked correlation을 통해 교사가 정답보다 높게 평가한 오답들은 masking하고 나머지 클래스들 간의 class correlation을 배우게 함.

Introduction

대부분의 이전 KD 방법들은 교사의 예측이 옳다고 가정하지만, 실제는 교사가 틀릴 수 있으며 이는 exacerbated divergence b/w standard distillation loss와 cross-entropy loss를 야기함.
기존의 correction-based distillation는 교사의 predicted maximum class을 실제 class로 바꾸거나(Swap), 실제 정답에 해당하는 확률값을 amplify하는 방법(Augment)을 적용하지만, 이는 class correlation (=high-level semantic relationships)를 훼손함.
교사의 오답을 제거하면서도, 필수적인 class correlation를 보존하기 위해 Refined Logit Distillation을 제안함.
- sample confidnece (SC): 학생의 true class probability를 교사의 predicted class probability와 정렬하여, 교사의 실수를 완화함. 이는 학생이 적절한 신뢰도를 가지도록 유도하고, 과적합을 방지함.
- masked correlation (MC): 교사가 true class보다 더 높게 평가한 오답 클래스들을 동적으로 마스킹하여 오정보를 제거하고, 남은 클래스 간의 유의미한 class correlation을 학생에게 전달함. 이를 통해, 선생모델의 오답이 많으면 더 적은 class가 활용되고, 오답이 적으면 더 많은 클래스가 distillation에 활용됨.

Methodology

Sample Confidnece Distillation

SCD는 모델이 특정 샘플에 대해 가지는 확신의 정도를 이진 확률 분포로 정의하여 전달함.
- 교사의 경우, 교사가 가장 높게 예측한 확률과 나머지 클래스들의 확률 합계로 구성됨.
- 학생의 경우, 학생이 실제 정답 클래스에 대해 예측한 확률과 나머지 클래스들의 확률 합계로 구성됨.

Masked Correlation Distillation

MCD는 교사가 헷갈려 하는 클래스들을 동적으로 가려, 유의미한 class correlation을 전달함.
교사가 정확할 때는 마스킹되는 클래스가 적어 대부분의 class correlation이 학생에게 전달되고, 교사가 부정확할때는 많은 클래스가 마스킹되어 학생이 교사의 오답 정보에 휘둘리지 않도록 함.

Refined Logit Distillation

Experiments

Reversed Knowledge Distillation

교사 모델이 학생 모델보다 성능이 낮은 상황에서의 성능 개선을 분석함. (성능이 낮은 교사 모델을 사용하여 더 뛰어난 학생 모델의 성능을 향상시킬 수 있는지)

Logit Discrepancy Visualization

RLD가 DKD보다 더 높은 성능을 보임에도 불구하고, 실제 logit 차이는 DKD보다 RLD에서 더 높음. 이는 RLD가 교사의 잘못된 지식을 수정하고, 학생 모델에게 독자적인 예측을 형성할 수 있는 자율성을 부여했기 때문임.
교사의 지식을 무조건적으로 따르는 것이 최적의 전략이 아니며, 오답을 교정하는 방식이 필수적임.

Ablation Study

실제 정답보다 큰 클래스만 마스킹하는 방식보다, 정답과 같거나 큰 클래스를 모두 마스킹하는 방식이 더 성능이 좋음. M_g 방식의 경우, 실제 정답 클래스에 대한 지식이 SCD와 MCD에서 중복되어 나타나 학습 목표 간의 Conflict을 일으키기 때문임.

Conclusion

기존의 지식 증류 방법들은 교사의 잘못된 예측이 학생 모델에게 미치는 부정적인 영향을 충분히 고려하지 못했음. 교사의 출력을 임의로 수정하는 방식이 활용될 수 있지만, 이는 class correlation을 훼손함.
이를 해결하기 위해, sample confidence와 masked correlation을 제안함.

[Paper Review] What to Distill? Fast Knowledge Distillation with Adaptive Sampling

成學 — Sun, 19 Apr 2026 16:16:32 +0900

This is a Korean review of

"What to Distill? Fast Knowledge Distillation with Adaptive Sampling"
presented at ICCV 2025.

TL;DR

지식 증류에 기여하는 데이터의 특성을 규명하기 위해 교사-학생 간 차이인 quantity of knowledge과 교사-정답 간 차이인 quality of knowledge이라는 분석 지표를 정의함.
지식의 양이 풍부한 샘플을 우선적으로 선택하는 quantity-based subsampling과 quality가 낮은 지식의 영향력을 줄이는 quality-calibrated loss weighting을 제안함.

Introduction

데이터의 선택은 KD의 효과와 효율성에 큰 영향을 미치지미나, 지금까지의 KD 방법들은 데이터 자체가 미치는 영향을 충분히 고려하지 않음.
모든 데이터가 증류 과정에서 똑같이 기여하는 것이 아니며, 특정 데이터는 학생 모델의 학습을 더 효과적으로 강화할 수 있는 풍부한 정보를 담고 있음.
데이터의 영향을 평가하기 위해 quantity of knowledge와 quality of knowledge의 두 가지 관점을 정의하고, 이를 바탕으로 학습에 부정적이거나 영향이 적은 샘플을 제외하고 좋은 샘플만 동적으로 선택하는 KDAS를 제안함.
- quantity-based subsampleing
- quality-calibrated loss weighting

Distillation Effciency Analysis

KL divergence를 통해서 특정 sample에 대한 quantity와 quality를 측정함.
Quantity of knowledge: 교사와 학생 모델 간의 예측 차이로 측정하며, 값이 클수록 학생이 교사로부터 배울 수 있는 정보 밀도가 높음.
Quality of knowledge: 교사의 예측과 정답 간의 차이로 측정하며, 너무 크거나 작으면 지식의 quality가 낮음.

Finding 1: Quantity of Knowledge

교사와 학생의 예측이 크게 다른 샘플이 증류에 가장 효과적이며, 차이가 적은 샘플은 증류 결과에 거의 영향을 주지 않음.
Hard Example Mining의 경우, 전체 training loss을 기준으로 어려운 샘플을 찾지만, 본 논문은 soft target loss를 활용함. 실험 결과, 전체 training loss가 높은 샘플을 활용하는 것보다 교사-학생 간 KL 값이 높은 샘플을 활용하는 것이 효과적임.

Finding 2: Curriculum Sampling

샘플링 비율을 고정하여 사용하는 것보다 샘플링 비율을 동적으로 감소시키면서 학습할 때 더 높은 성능을 기록함. (총 샘플수는 동일)
학습 초기에 교사-학생 간의 지식 차이가 큰 샘플이 많이 때문에, 초기에 더 많은 샘플을 선택하여 학습하는 것이 유리함.
쉬운 샘플에서 어려운 샘플 순으로 학습하는 일반적인 커리큘럼 샘플링 방식과 달리, KDAS는 지식의 양을 활용하여 샘플의 수 자체를 조절함.

Finding 3: Quality of Knowledge

교사 모델과 정답 사이의 KL 값이 중간 수준인 샘플들을 사용하는 것이 가장 좋은 성능을 기록함.
교사의 예측이 정답 레이블과 거의 일치하는 경우 교사는 dark knowledge를 충분히 제공하지 못하고, 교사의 예측과 정답이 너무 다른 경우, 교사가 학상에게 잘못된 지식을 가르칠 위험이 커짐.
따라서, 가장 효과적인 지식 전달은 교사의 분포가 정답과 적당히 다르면서도, 동시에 정답과 충분히 정렬되어 있어야 함.

Finding 4: Penalization

Quality가 높은 샘플에 더 많은 weight을 부여함으로써 효율적으로 학습할 수 있음.
교사-정답 간의 KL 값이 특정 임계값(lower bound and upper bound)을 벗어나면 해당 샘플의 영향력을 줄임.

Faster Knowledge Distillation

Quantity-based subsampling

매 epoch 마다 모든 샘플의 quantity of knowledge value를 계산하는 것은 교사 모델의 연산 비용 때문에 부담이 될 수 있음. 이를 위해 특정 주기마다 산발적으로 샘플링을 수행하여 전체 증류 시간을 효과적으로 단축함.
실험 결과, 매 epoch이 아닌 산발적인 샘플링 주기를 적용해도 지식 증류 성능이 충분히 유지됨.

Quality-calibrated loss weighting

학습 초기에는 교사를 신뢰할 수 있도록 warmup을 두며, 이후 패널티 강도를 점진적으로 높임.

Evaluation

Conclusion

본 연구는 지식 증류에서 데이터가 미치는 영향을 Quantity와 Qulity의 관점으로 분석함.
효율적인 지식 증류를 위해 adaptive sampling method를 제안하였으며, 이는 지식 증류를 위한 좋은 샘플을 선택하고 적용하여 distillation process를 가속화하는 것임.

[Paper Review] VRM: Knowledge Distillation via Virtual Relation Matching

成學 — Sat, 18 Apr 2026 17:32:11 +0900

This is a Korean review of

"VRM: Knowledge Distillation via Virtual Relation Matching"
presented at ICCV 2025.

TL;DR

Relation mathcing(RM)이 Instance mathcing(IM)보다 overfitting에 취약하고, 노이즈 샘플의 부정적인 gradient가 배치 전체로 확산되는 문제를 식별함.
Virtual view를 생성하여 real-virtual sample 간의 상관관계를 학습 신호로 활용하여 Regularization를 강화하고 성능을 향상시킴.
중북된 연산을 줄이고(redundant edges) 신뢰할 수 없는 관계를 차단(unreliable edges)하는 프루닝 전략을 적용함.

Pilot Studies

RM은 IM 보다 제약 조건이 약한 목표(weaker objective)이기 때문에, 학생 모델이 훈련 데이터에만 과하게 적응하고 일반화 성능이 떨어지는 경향이 있음.
배치 내 단 하나의 잘못된 예측(Spurious sample)이 관계 그래프를 통해 배치 전체 샘플의 그래디언트에 악영향을 미침.

Method

Inter-Sample Relations

정교한 categorical knowledge를 가지고 있는 predicted logits을 사용하여 relation 구축
기존의 gram 행렬은 내적 연산 과정에서 클래스 간의 세부 지식이 하나의 값으로 합쳐져 사라지는 문제가 있어, VRM은 pairwise distance를 사용하여 클래스 차원을 따라 정보를 보존함. 이를 통해, 샘플 간 관계뿐만 아니라 클래스별 세부 정보를 보조 지식으로 전달함.

Inter-Class Relations

배치 단위의 불일치를 추가적인 지식으로 취급하여, 클래스 사이의 관계 정보를 더욱 풍부하게 추출함.

Virtual Relations

원본 이미지에 의미를 보존하는 변환인 RandAugment를 적용하여 Virtual View를 생성함.
Virtual View를 통해 생성된 가상 관계는 학생 모델에게 더 풍부한 가이드 신호를 제공하고 학습 과정 전반에서 강력한 Regularization을 수행함.

Graph Purning

Redundant edges: Virtual view로 인해 4배 늘어난 오버헤드를 줄이기 위해, 대칭적인 그래프의 절반을 제거하고, intra-view edge를 추가로 제거하여, inter-view 관계에만 집중함.
Unreliable edges: 두 예측 사이의 불일치를 측정하여 신뢰도를 평가함. 불일치가 클수록 해당 관계는 신뢰할 수 없다고 판단하며, 이를 동적으로 제거하여 잘못된 예측이 배치 전체로 확산되는 것을 방지함.

Experiments

Transformation operations

VRM의 성능 개선이 단순히 RandAugment 같은 특정 변환 기법에 기인하는 것은 아님.
기본적인 변환(Weak transformation)만 사용해도, 확률적 연산에 의해 두 view 사이에 차이가 발생하며, 이로 인한 교사-학생 간의 Discrepancy가 핵심적인 Regularization 역할을 함.
CIFAR100의 경우 데이터셋이 쉽고 예측 차이가 작기 때문에 추가적인 변환을 통해 인위적으로 이 차이를 넓히는 것이 중요하지만, ImageNet은 이미 데이터 자체가 어려워 교사-학생 간의 예측 불일치가 크기 때문에, 추가적인 변형을 통해 이를 증폭시키는 효과가 상대적으로 적게 나타남.

Conclusion

본 연구를 통해 기존 관계 기반 지식 증류 방법이 가졌던 overfitting 취약성과 부정적인 그래디언트 전파 문제를 명확히 규명하고, 이를 해결하기 위해 VRM과 프루닝 전략을 적용함.

[Paper Review] What Makes a Good Dataset for Knowledge Distillation?

成學 — Sun, 31 Aug 2025 21:34:17 +0900

This is a Korean review of "What Makes a Good Dataset for Knowledge Distillation?" presented at CVPR 2025.

TL;DR

일반적인 KD는 학생 모델을 학습할 때, 선생 모델이 학습한 원본 데이터셋을 사용할 수 있다는 가정이 있지만, 실제 application에서는 항상 가능한 것이 아님.
이를 극복하기 위해, 'supplemental data'를 사용하는 것을 고려할 수 있음. 그렇다면, 어떤 데이터셋이 지식을 전달할 때에 좋은 데이터셋일까?
Real하고, In-domain dataset 만이 유일한 방법이라고 생각할 수 있지만, 본 연구를 통해, unnatural synthetic dataset도 대안이 될 수 있음을 보임.

Introduction

일반적으로, 지식 증류를 수행할 때 선생 모델을 학습할 때 활용한 데이터셋을 사용하지만, 원본 데이터에 항상 접근 가능하다는 가정은 실제 환경에서 타당하지 않음.
이러한 한계를 극복하기 위해, 다음의 supplemental data를 사용하는 것을 고려할 수 있음.
- real in-domain examples
- real out-of-domain examples
- synthetic examples opimized to be ID
- unoptimized unnatural synthetic OOD imagery (e.g. OpenGL shaders)
일반적으로 real ID가 괜찮은 대안 데이터셋으로 생각되지만, most unconventional dataset을 통해서도 지식이 전달되는 것이 가능할까? → 지식 증류를 위한 데이터셋은 어떤 점이 필요하고,어떤 조건을 만족해야할까?
본 논문을 통해서,
- 성공적인 지식 증류를 가능하게 하는 데이터셋의 핵심 특징을 확인하고,
- unnatural synthetic OOD data를 사용해도 성공적으로 지식증류가 가능함을 보임.
- 또한, adversarial attack 전략을 통해서, 이러한 지식 전달을 향상시킴.

Related Work

Knoweldge Distillation

[1]: KD를 function matching의 시각으로 다루며, 강한 mixup을 적용한 것이 학생 성능을 향상시킨다는 것을 보여줌.
[2, 3]: Adversarial examples이 선생모델의 decision boundary를 확인하게 만들어 성능 향상에 도움이 됨을 보여줌.

Utilizing Supplemental Data in Knowledge Distillation

원본 데이터셋에 접근하지 못할 때, 대체 데이터셋을 활용하는 다양한 연구들이 있음. 그 중에서, [4, 5]은 KD와 domain adaptation을 결합하여, 완전히 다른 도메인(real images↔ drawings)에서 학생 모델이 선생모델과 동일한 클래스를 가지도록 학습함,

Data-Free Knowledge Distillation

DFKD는 KD에 도움이 되는 데이터를 만들기 위해, 1) generator network를 활용하거나 2) 내제된 선생모델의 statistics를 활용함.

Methodology

Natural Dataset Collection

원본 데이터셋과 가장 많은 클래스 정보를 공유하는 데이터셋(e.g., ID)을 대체 데이터셋으로 선택하는 것이 타당하긴 하지만, ID여야만 해야할까? OOD는 활용할 수 없을까?
이를 확인하기 위해 CIFAR10, CIFAR100, TinyImageNet, ImageNet (split into ID and OOD subsets), FGVC-Aircraft, Pets, Food, EuroSAT을 활용함.

Synthetic Dataset Collection

ID 또는 OOD 데이터셋에서 더 나아가, 대체 데이터셋은 Real 이여야 할까? 기존 DFKD 연구들은 이미지 ID에 최적화된 합성 데이터셋 (Unnatural Iamges)를 고려했음. 하지만, 이러한 최적화가 정말로 필요할까?
최적화되지 않고, 비자연스러운 OOD 합성 이미지를 사용하여 지식이 전달되는 지 확인하기 위해, OpenGL shaders, Leaves, Noise를 활용함.

$\mathcal{C}=\{c_1, \dots, c_R\}$ 클래스를 가진 데이터셋에 pretrain된 선생 모델 $\mathcal{F}_T$와 초기 합성 데이터셋 $\mathcal{D}_S$가 있을 때, 각 샘플을 선생모델에 통과시켜 예측값을 얻고, 이를 활용하여 KD에 사용할 최종 합성 데이터셋 $\mathcal{D}_K$를 얻음.
- Teacher에 의해 클래스 $c_i$로 예측된 이미지에 대해서 무작위로 $N_i$개의 샘플을 추출함.
- 만약 특정 예측 클래스가 0이라면, 이를 Skip하고 다른 클래스에서 더 많은 샘플을 추출함.
- 특정 클래스가 $N_i$보다 더 적게 예측되었다면, 해당 갯수를 채우기 위해 복제를 함.

Data Augmentation

합성데이터는 필요하다면, 거의 무한에 가까운 데이터를 얻을 수 있지만, 큰 저장용량이 필요할뿐만 아니라, 새로운 합성 샘플들이 이미 존재하는 샘플들과 상당히 다른 샘플이라고 보장하지 않음.
따라서, 데이터셋의 다양성을 증가시키기 위한 방법으로, 데이터 증강을 사용할 수 있음. 데이터 증강은 증류 중에 더 많은 샘플들을 만들 수 있을 뿐만 아니라, 선생 모델의 feature space을 더 탐험할 수 있도록 함.
일반적인 지도학습에서 데이터 증강은 label-preserving 해야 하지만, KD를 function matching으로 생각하면, 라벨을 더이상 생각하지 않아도 됨. 따라서, 일반적인 지도학습에서는 고려하지 않는 다양한 데이터 증강을 적용할 수 있음.

Knowledge Distillation

Experiments

Datasets & Networks

Teacher을 학습시키기 위해, general purpose dataset (e.g., C10, C100, Tiny)과 fine-grained/domain-specific dataset (e.g., FGVA, Pets, EuroSAT)을 활용하고, distillation dataset으로는 이 6가지와 더불어, ImageNet-ID, ImageNet-OOD, Food, OpenGL shaders, Leaves, Noise를 사용함.
CIFAR10/100 trained teacher: ResNet50 → ResNet18 / WRN-40-2; Others: ResNet50 → ResNet18 / MV2

Training Details

Teacher: Data augmentation으로 RandAugment $(n=2, m=14)$, random horizontal flipping, random copping with padding을 사용함.
Distillation: Real 샘플의 경우, Teacher 모델을 학습할 때와 동일한 data augmentation을 사용하고, 합성 샘플의 경우, 더 강한 data augmentation인 RandAugment $(n=4, m=14)$, random elastic, random inversion transforms을 추가로 적용함.

Results

Standard Knowledge Distillation

Does the distillation data need to be in-domain?

기존 데이터셋을 사용하는 것이 가장 뛰어난 성능을 기록하지만, 많은 real ID 와 OOD surrogate 데이터셋도 어느정도 뛰어난 성능을 기록함.
Pets으로 학습된 teacher 결과에서는 surrogate (IN-ID, 50K samples)가 기존 데이터셋 (Pets, 3600 samples)보다 뛰어난 성능을 기록하며, FGVCA 데이터셋에서는 IN-OOD (50K samples)가 IN-ID (3900 samples)보다 뛰어난 성능을 기록함.
학생을 더 길게 학습하면, alternative OOD 데이터셋을 사용해도 괜찮은 성능을 얻을 수 있지만, ID 데이터가 더 적은 샘플로도 선생 정보를 충분히 학습할 수 있음 (sample efficiency ↑).

Does the distillation data need to be real?

비자연스러운 합성 데이터셋을 활용함에도 불구하고, 지식증류가 어느정도 성공적으로 수행됨을 확인할 수 있음.
다만, TinyImageNet 처럼 클래스의 수가 커지거나, FGVCA와 Pets 처럼 클래스가 더 fine-grained 하게 되면, 합성데이터셋은 더이상 좋은 성능을 내지 못함.
Leaves가 noise 보다 더 나은 성능 개선을 보여주는데, 이는 Leaves 이미지에 포함되어 있는 primitive 특성(lines and corners)으로 인한 것으로 생각되며, OpenGL shaders는 Leaves에 비해 더많은 다양성과 texture를 포함하고 있기 때문에 더 큰 성능 개선을 보여줌.
즉, 데이터셋이 꼭 실제일 필요는 없으며, 비자연스러운 합성 데이터셋을 사용해도 지식을 충분히 전달할 수 있음.

How does the teacher architecture influence what distillation datasets are viable?

Teacher의 구조는 KD의 속도에 큰 영향을 미침. 즉, Teahcer가 구조적으로 더 복잡하고 높은 성능을 내는 모델이라면 patient distillation [1]가 요구됨. 하지만, Teacher의 구조가 지식증류를 위한 특정 데이터셋 사용 가능성에 영향을 미치지 않는 것으로 보임.

What Influences Successful Distillation?

어떤 요소가 특정 데이터셋이 다른 데이터셋보다 더 뛰어난 성능을 만들게 하는지를 분석하기 위해, Teacher 모델이 각 클래스를 얼마나 예측했는지(class prediction histogram)로부터 relative entropy를 계산함.
가장 좋은 성능을 기록하는 데이터셋일수록 relative entropy가 1에 가까우며, 이는 teacher 모델이 모든 클래스를 균일하게 예측한다는 것을 의미함.

OpenGL shader image를 활용할 때는, temperature-scaled softmax outputs을 사용하는 것이 one-hot 또는 label smoothing보다 더 높은 성능을 기록함.
이는 OpenGL과 같은 OOD data를 사용하여 증류를 할때는, nearby decision boundaries와 클래스간의 관계를 이해하는 것이 특히 중요하다는 것을 보여줌.
Mixup을 사용하면, Long tail과 balanced 실험에서 성능차이가 미비함. 즉, teacher 모델 예측이 균일하지 않아도 어느정도 괜찮음. 이는 raw sample의 수와 품질이 부적절할 때, mixup을 통해 teacher feature space의 많은 부분을 커버할 수 있기 때문임.

과도한 데이터 증강을 사용하면, CIFAR10이 OOD 데이터셋 성능과 유사하게 됨.
Tables 3-5를 통해서, KD is a task of function matching and sufficient sampling of the teacher.
하지만, 모덴 데이터셋이 동일 수준의 샘플링 효율성을 보이는 것은 아님. ID 데이터는 OOD 데이터보다 더 나은 샘플 효율성을 보이며, 원본 데이터가 모든 데이터 중에서 가장 높은 샘플 효율성을 가짐.

OpenGL shader 데이터셋은 교사의 모든 클래스 영역에서 예측된 샘플을 가지고 있는 (1에 가까운 relative entropy) 반면, CIFAR10 데이터는 클래스의 일부만 커버함 (0에 가까운 relative entropy).
즉, OpenGL shader student는 MNIST student와 유사한 decision boundaries를 얻어 CIFAR10보다 더 높은 성능을 기록함.

Adding Teacher Exploitation

Surrogate data를 사용하여 지식증류를 할때, decision boudnary information이 KD에 영향을 미침. 즉, 만약 특정 데이터셋이 KD에 좋지 않다면, adversarial attacks을 통해서 샘플의 minor perturbations을 넣어 이를 극복할 수 있음.
Adversarial attack을 통해서 decision boundary aware dataset을 만들 수 있고, 이를 통해 전체적으로 더 높은 성능을 얻을 수 있음.

Comparisons to Other Data Sources

상당한 computational overhead가 필요한 generator network가 없어도, 충분한 성능을 얻을 수 있음.

Conclusion

KD is a sufficient sampling problem that requires the teacher’s outputs and decision spaces be equally and thoroughly explored.
It is actually possible to distill many different teacher models using unnatural synthetic imagery in the form of OpenGL shader images.
Adversarial perturbation strategy that can improve the knowledge transfer was proposed.

[Paper Review] ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift

成學 — Sat, 26 Jul 2025 09:00:55 +0900

This is a Korean review of "ShiftKD: Benchmarking Knowledge Distillation underDistribution Shift" published in arXiv 2025.

TL;DR

Real-world에서는 훈련 데이터와 테스트 데이터 간의 분포 차이가 빈번하게 발생함. 따라서, Domain Shift에서 기존 KD 방법들의 신뢰성과 강건성을 확인해야 함.
두 가지의 일반적인 분포 변화 유형(Diversity shift, Correlation shift)에서 다양한 KD 기법들을 평가하며, 이외에도 데이터 증강, 프루닝, 최적화 알고리즘에 따른 성능 변화를 분석함.

Introduction

잘 학습된 대형 모델이 주어졌을 때, 분포 이동 상황에서도 성능 저하 없이 더 작고 강건한 구조로 압축하는 것이 필요함. 이를 위해 KD가 주목받고 있으나, 기존 방법들은 독립적이고 동일한 분포(i.i.d.)를 전제로 하고 있음.
훈련 환경에서는 깨끗하고 잘 정렬된 데이터가 주어지지만, 실제 depoyment environment에서는 Diversity shift와 Correlation shift가 나타날 수 있음.
- Diversity Shift: 실제 사진 → 만화 스타일 이미지로의 스타일 변화
- Correlation Shift: 레이블-특징 간 연관성 변화
기존의 i.i.d. 가정과는 다른 분포 이동 상황에서 다양한 KD 기법을 평가함. 이를 통해, 기본적인 Vanilla KD 방법도 때로는 충분할 수 있다는 것을 보여주며, 분포 이동 하에서 dark knowledge 및 데이터 증강의 효과 급감 현상을 밝힘.

ShiftKD: Framework to Evaluate Knowledge Distillation to Distribution Shift

Preliminaries

Knowledge Distillation (KD)

KD under distribution shift (non-i.i.d. case)

Non-i.i.d. 상황에서는, 유사하지만 서로 다른 $K$개의 훈련 도메인들 $\mathcal{D}_{\text{tr}} = \left\{ \mathcal{D}_e = (X_e, Y_e) \right\}_{e=1}^{K}$이 주어지며, 각 도메인은 서로 다른 데이터 분포 $P^e_{XY}$를 따름.
분포 이동 상황에서의 KD 목표는 훈련 시 접근할 수 없는 테스트 환경 $\mathcal{D}_\text{te}$에서도 잘 동작할 수 있는 학생모델 $S(X; \theta_s)$를 구축하는 것임.
선생 모델은 분포 이동이 반영된 데이터셋 $\mathcal{D}_\text{tr}$에 대해서 먼저 학습되고, 학생 모델에게 증류함. 이를 통해, 분포가 변화한 테스트셋 $\mathcal{D}_\text{te}$에 대해서 학생의 강건성을 확인함. → 선생모델 자체가 강건하지 않더라도, KD를 통해 강건한 학생을 얻기를 원함.

Framework Setting

Transferable Knowledge algorithms

분포 이동 하에서, 어떤 종류의 지식이 학생이 선생을 잘 따라가도록 도울까?

Distillation Data Manipulation

분포 이동 상황에서 KD의 강건성을 얻기 위해 어떤 데이터 전략을 선택해야 할까?

Optimization option

Types of Distribution shift

Benchmarking Details

Knowledge Transfer Algorithms

Data Manipulation Techniques

Optimization Options

분포 이동 상황에서 KD 성능에 영향을 줄 수 있는 하이퍼파라미터, 사전학습, optimizer, 학생 모델 종류 등을 평가함.

Shifted Datasets

Diversity shift와 Correlation shift의 이동 조건에서 KD 성능을 평가하기 위해 아래의 5가지 데이터셋을 선택함.
- Diversity shift: OOD generalization에서 널리 사용되는 PACS, OfficeHome, DomainNet을 사용함.
- Correlation shift: ColorMNIST(색과 숫자간의 인위적 상관관계)와 CelebA-Blond(성별과 금발 여부간의 상관관계)를 사용함.
이 다섯가지에 국한하지 않고, 대부분의 ODD 벤치마크 데이터셋을 활용할 수 있음.

Evaluation Implementation

Evaluation Metrics

Average Accuracy: 모든 도메인 환경에서 평균적으로 달성한 정확도
Worst-Group Accuracy (WGA): 가장 낮은 성능을 보인 환경에서의 정확도; 분포 이동이 심한 환경에 대한 강건성을 판단하는 기준
Expected Calibration Error (ECE): 모델의 예측 신뢰도와 실제 정확도 간의 차이를 측정하는 calibration 지표; 모델이 얼마나 overconfident 또는 underconfident하는지를 수치화

Benchmarking Details

RQ1: Performance Across Distillation Algorithms

KD를 통해 학습된 학생모델은 일반적인 특징에 초점을 맞추기 때문에 일반화 성능이 향상됨. 이는 학생모델이 선생모델보다 구조적으로 더 단순하게 설계되었기 때문임. 결과적으로, 분포 이동에서도 전반적인 성능향상을 가져옴.
복잡한 KD 기법들이 항상 Vanilla KD보다 큰 이점을 제공하지는 않음.
KD의 성능 개선 효과는 architectural compatibility에 매우 민감하기 때문에, 분포 이동 유형에 따라 KD 기법을 동적으로 조정할 필요가 있음.

Low-level knowledge는 분포 이동 상황에서 학생을 오히려 혼란스럽게 함. High-level semantic feature를 포함하는 마지막 layer를 사용하는 것이 가장 좋은 성능을 보임.
복잡한 KD 기법의 성능 저하 원인은 전달된 특징과 실제 필요한 표현 간의 불일치로 설명됨. 분포 변화 상황에서 선생 모델의 신뢰할 수 없는 저수준 특징에 과도하게 의존하게 되면 학생의 성능 저하로 이어짐. 즉, 모든 계층에서 선생모델을 무작정 따라서는 안되며, 도메인에 독립적이고 의미있는 표현을 선별적으로 정렬해야 함.

선생 모델이 bias를 가지고 있다면, 기존 KD 기법들은 이러한 편향을 학생에게 그대로 전달하게 되어, 학생모델의 성능 향상을 저해함.
i.i.d 환경에서 유용했던 dark knowledge는 분포 이동 환경에서는 오히려 역효과를 낳을 수 있음.

RQ2: The Role of Distillation Data

지식 증류에 사용할 데이터를 신중히 선택하는 것이 중요함. 데이터 조작을 통해, 학습 데이터를 유용하게 변형하여 이 데이터의 분포가 다양한 환경에서 공통적인 분포에 더 가까워지도록 해야함.

RQ3: Possible Causes on Training Options

Connecting KD to Information Theory

KD는 선생모델로부터 오는 유용한 정보만 골라서 사용해야 효과적임. 분포 이동 환경에서는 선생 모델의 잘못된 정보까지 따라하면 오히려 악영향을 미침. 따라서, KD에서도 정보를 선별할 필요가 있음.

Conclusion

KD가 분포 이동 상황에서도 강인한 경량 모델을 만드는데 중요한 역할을 하고 있음.
기존의 복잡한 KD 기법들은 Vanilla KD에 비해 큰 개선을 보여주지 못했음. 따라서, 새로운 알고리즘을 개발할 필요가 있음.
분포 이동 상황에서 학생 모델의 강인성을 향상시킬 새로운 데이터 기반 방법을 만드는 것이 유망한 연구 방향임.

[Paper Review] Dataset Condensation with Distribution Matching (DM)

成學 — Fri, 23 May 2025 11:15:19 +0900

This is a Korean review of "Dataset Condensation with Distribution Matching" presented at WACV 2023.

TL;DR

DD를 통해 합성된 이미지로 모델을 빠르게 학습할 수 있지만, 이미지 생성 과정은 복잡한 bi-level optimization과 second-order derivatives computation 때문에 계산 비용이 매우 큼.
본 논문은 many sampled embedding spaces에서 합성 이미지와 원본 이미지의 feature distribution을 일치시키는 방식으로 이미지를 합성하는, 최초의 distribution matching 기반 dataset distillation 방법을 제안함.

Introduction

기존의 다양한 dataset distillation 기법들은 일정 수준의 성능을 보이지만, 대부분 여전히 비용이 큰 bi-level optimization 문제를 내포하고 있음.
본 논문에서는 bi-level optimization을 수행하지 않고도, distribution matching을 통해 합성 데이터가 원본 데이터 분포를 다양한 embedding space 상에서 정합되도록 최적화하는 방법을 제안함.
- 이를 위해 분포 간 거리 측정으로 maximum mean discrepancy (MMD)를 사용
- 다양한 embedding space는 무작위로 초기화된 딥러닝 모델들을 샘플링함으로써 효율적으로 구성
이 방법은 클래스별로 학습을 독립적으로 수행할 수 있으므로, 병렬 처리 및 계산 부하 분산이 가능하다는 장점이 있음.

Methodology

Dataset Condensation Problem

Dataset distillation은 large-scale training set $\mathcal{T}$을 small synthetic set $\mathcal{S}$로 압축하는 방법으로, 아래의 식과 같이, $\mathcal{T}$와 $\mathcal{S}$에 학습된 모델이 unseen testing data에서 비슷한 성능을 내는 것을 목표로 함.
$$
\mathbb{E}_{x \sim P_{\mathcal{D}}} \left[ \ell\left( \phi_{\theta^T}(x), y \right) \right]
\simeq
\mathbb{E}_{x \sim P_{\mathcal{D}}} \left[ \ell\left( \phi_{\theta^S}(x), y \right) \right],
$$

Existing Solutions

Learning-to-learn problem 방식은 network parameters $\theta^\mathcal{S}$을 synthetic data $\mathcal{S}$의 함수로 정의하고, 원본데이터셋 $\mathcal{T}$에 대한 training loss $\mathcal{L}^\mathcal{T}$을 최소화하는 $\mathcal{S}$를 구함.
$$
S^* = \arg\min_\mathcal{S} \mathcal{L}^\mathcal{T}\left(\theta^\mathcal{S}(\mathcal{S})\right)$$ $$
\text{subject to} \quad \theta^\mathcal{S}(\mathcal{S}) = \arg\min_\theta \mathcal{L}^\mathcal{S}(\theta).
$$
또 다른 방법으로, 합성 데이터와 실제 데이터에 대해 계산된 gradient를 matching하는 방법이 있음. 이 방법은 파라미터 $\theta$와 합성 데이터 $\mathcal{S}$를 번갈아 최적화하면서 다음의 목표를 최소화함.
$$
\mathcal{S}^* = \arg\min_\mathcal{S} \mathbb{E}_{\theta_0 \sim P_{\theta_0}} \left[ \sum_{t=0}^{T-1} D\left( \nabla_\theta \mathcal{L}^\mathcal{S}(\theta_t), \nabla_\theta \mathcal{L}^\mathcal{T}(\theta_t) \right) \right]
$$ $$
\text{subject to} \quad \theta_{t+1} \leftarrow \text{opt-alg}_\theta\left( \mathcal{L}^\mathcal{S}(\theta_t), \varsigma_\theta, \eta_\theta \right),
$$

Dilemma

위의 performance matching과 gradient matching 방법은 고비용의 bi-level optimization 과정을 포함함. 즉, inner loop에서는 모델 $\theta$을 최적화하고, outer loop에서는 *second-order derivative computation을 포함하는 합성 데이터 $\mathcal{S}$를 최적화해야 함.

*모델 파라미터 $\theta$는 합성데이터 $\mathcal{S}$에 의해 영향을 받으므로, $\frac{\partial \mathcal{L}^\mathcal{T}(\theta^*(\mathcal{S}))}{\partial \mathcal{S}} = \frac{\partial \mathcal{L}^\mathcal{T}}{\partial \theta^*} \cdot \frac{\partial \theta^*}{\partial \mathcal{S}}$의 chain rule이 성립함. 여기서 $\theta^*$는 합성데이터 $\mathcal{S}$를 통해 정의된 $\mathcal{L}^\mathcal{S}$에 대해 gradient descent를 수행한 결과로, $\theta^* = \theta - \alpha \nabla_\theta \mathcal{L}^\mathcal{S}(\theta)$로 정의됨. 따라서, $\frac{\partial \theta^*}{\partial \mathcal{S}} = -\alpha \cdot \frac{\partial}{\partial \mathcal{S}} \nabla_\theta \mathcal{L}^\mathcal{S}(\theta) = -\alpha \cdot \nabla^2_{\theta, \mathcal{S}} \mathcal{L}^\mathcal{S}(\theta)$이므로, second-order derivative가 됨.

Dataset Condensation with Distribution Matching

훈련 이미지들은 일반적으로 high-dimensional하기 때문에 실제 분포를 추정하고 이를 근사하는 합성 데이터를 생성하는 것은 비용이 많이 들고 부정확함.
대신, 본 논문의 방법은 각 학습 이미지 $x\in\mathbb{R}^d$가, parametric function $\psi_\vartheta: \mathbb{R}^d \rightarrow \mathbb{R}^{d'}$를 통해 lower dimensional space로 embedding될 수 있다고 가정함.
- 즉, 각 embedding function $\psi$는 입력 이미지에 대한 부분적인 해석을 제공하며, 이들의 조합은 전체적인 표현을 제공함.
Maximum mean discrepancy (MMD)를 통해서, 원본데이터와 합성 데이터 간의 분포 차이를 측정할 수 있음.
$$
\sup_{\|\psi_{\vartheta}\|_{\mathcal{H}} \leq 1} \left( \mathbb{E}[\psi_{\vartheta}(\mathcal{T})] - \mathbb{E}[\psi_{\vartheta}(\mathcal{S})] \right)
$$
Ground-truth data 분포에 접근할 수 없으므로, 아래의 MMD의 empirical estimate를 사용함.
$$
\mathbb{E}_{\vartheta \sim P_{\vartheta}} \left\|
\frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} \psi_{\vartheta}(x_i) -
\frac{1}{|\mathcal{S}|} \sum_{j=1}^{|\mathcal{S}|} \psi_{\vartheta}(s_j)
\right\|^2
$$
- $P_\vartheta$는 네트워크 파라미터의 분포임.
이전 연구에서 적용한, 미분가능한 Siamese augmentation $\mathcal{A}(\cdot, \omega)$를 실제 데이터와 합성데이터에 모두 활용하여 최종적인 optimization 문제로 정의하면 다음과 같음.
$$
\min_\mathcal{S} \mathbb{E}_{\vartheta \sim P_{\vartheta}, \omega \sim \Omega}
\left\| \frac{1}{|\mathcal{T}|} \sum_{i=1}^{|\mathcal{T}|} \psi_{\vartheta}(\mathcal{A}(x_i, \omega)) - \frac{1}{|\mathcal{S}|} \sum_{j=1}^{|\mathcal{S}|} \psi_{\vartheta}(\mathcal{A}(s_j, \omega)) \right\|^2
$$
이를 통해, 다양한 embedding space (다양한 $\vartheta$)에서 두 분포 차이를 최소화하여 합성 데이터 $\mathcal{S}$를 학습함. 위의 식은, 모델 파라미터를 전혀 학습할 필요 없이 오직 $\mathcal{S}$만을 최적화하므로, bi-level optimization을 피할 수 있음.
본 논문은 이미지 분류 문제를 대상으로 하기 때문에, 같은 클래스 내에서 분포 차이를 최소화함. 또한, 모든 실제 학습 샘플은 레이블을 갖고 있으며, 합성 샘플에도 고정된 레이블을 부여함.

Training Algorithm

Discussion

Randomly Initialized Networks

Embedding 함수 $\psi_\vartheta$의 집합은 다양한 방식으로 설계될 수 있음. 본 논문에서는 사전 학습된 네트워크(많은 계산 비용이 필요)에서 파라미터를 샘플링하는 대신, 무작위로 초기화된 딥러닝 모델을 여러 개 사용하는 방법을 선택함.
- 무작위로 초기화된 네트워크는 강력한 representation을 만들어 내며, 데이터의 *distance-preserving embedding을 수행함.

*같은 클래스의 샘플들은 가까이, 다른 클래스의 샘플들은 멀리 위치하도록 embedding

Connection to Gradient Matching

Distribution mathcing은 실제 이미지와 합성 이미지 batch의 평균 feature를 일치시키는 반면, gradient matching은 두 batch에서 계산된 평균 gradient를 일치시킴.
Distribution mathcing은 모든 feature에 균등한 가중치를 주는 반면, gradient matching은 예측이 부정확한 샘플에 더 큰 가중치를 부여함.

Generative Models

이미지 생성 기법은 실제처럼 보이는 이미지 생성을 목표로 하지만, dataset distillation은 데이터 효율적인 학습 샘플 생성을 목표로 함. 이미지를 현실적으로 보이도록 하는 제약은 데이터 효율성을 제한할 수 있음.
기존 연구는 cGAN으로 생성된 이미지들이, 무작위로 선택한 실제 이미지보다 모델 학습에 더 안좋다는 것을 보여줌.

Experiments

Comparison to the SOTA

Competitors

Coreset selection 중, Herding은 mean vector가 전체 데이터셋의 mean에 가까워지도록 샘플을 greedily 추가하는 방식
Forgetting은 네트워크 학습 중 얼마나 자주 샘플이 학습되고 잊혀지는 지 계산하여 less forgetful 샘플은 제외하는 방식

Peformance Comparision

Visualization

각 방법들 (DC, DSA, DM)에 의해 학습된 이미지의 feature distribution을 추출하기 위해, 원본 학습데이터에 학습된 네트워크를 활용했음.
DC와 DSA에 의한 합성 이미지는 실제 이미지 분포를 커버하지 못하지만, DM에 의한 합성 이미지는 실제 이미지 분포를 잘 커버하고 있으며, outlier도 더 적음.

Learning with Batch Normalization

DSA에서는 작은 합성 데이터 세트의 경우, BN을 사용할 때 정확한 평균과 표준편차 추정이 어렵고, 이를 실제 데이터로 사전 설정하여 고정하면 오히려 최적화가 불안정해지므로, IN이 더 좋은 성능을 보임.
반면, DM은 모든 클래스에서 증강된 합성 데이터를 활용하여 합성데이터의 실제 평균과 분산을 직접 추정할 수 있으므로, BN을 안정적으로 사용할 수 있고 성능도 향상됨.

Training Cost Comparison

DM은 bi-level optimization 방법인 DSA보다 훨씬 효율적임.

Learning Larger Synthetic Sets

DSA 같은 bi-level optimization 기반의 방법은 데이터셋이 커질수록 학습시간과 튜닝 비용이 매우 커지지만, DM은 더 큰 합성 데이터셋에서도 효과적으로 학습할 수 있음.

Cross-architecture Generalization

Distribution matching으로 학습된 합성 이미지는 gradient matching으로 학습된 합성 이미지보다 보지 못한 구조에 대해 더 나은 일반화 성능을 보임.
ResNet과 같은 복잡한 아키텍처로 합성 데이터를 학습할 경우, 해당 합성 데이터가 그 아키텍처에 과도하게 fitting되어 다른 아키텍처에는 존재하지 않는 bias를 포함하게 되고,이로 인해 타 아키텍처에서 성능이 하락함 (마지막 row).
또한, 같은 합성 데이터를 더 복잡한 아키텍처에서 평가할 때도 성능이 더 낮게 나타나는데 (마지막 column), 이는 작은 합성 데이터만으로는 복잡한 모델이 충분히 학습되지 못해 underfitting이 발생하기 때문임.

Conclusion

본 논문은 distribution matching에 기반한 최초의 dataset distillation 방법을 제안함. 이 방법은 bi-level optimization이 필요 없어 매우 효율적이며, 대규모 또는 복잡한 데이터셋에도 적용 가능하고, 클래스당 수백~수천 장 규모의 합성 데이터셋도 학습할 수 있음.

[Paper Review] Dataset Distillation by Matching Training Trajectories (MTT)

成學 — Thu, 22 May 2025 15:30:24 +0900

This is a Korean review of "Dataset Distillation by Matching Training Trajectories" presented at CVPR 2022.

TL;DR

합성데이터를 학습할 때, 모델의 파라미터가 실제 데이터로 학습했을 때의 파라미터 궤적과 유사한 경로를 따르도록 설계함.
이를 위해, 실제 데이터로 사전 학습된 전문가 네트워크의 학습 궤적(trajectory)을 미리 계산하고 저장함.

Introduction

기존 연구는 주로 낮은 해상도의 데이터셋 (e.g., MNIST, CIFAR)에만 국한되고, 다음의 한계가 존재함.
- 여러 반복을 unroll하는 과정에서 학습 불안정성 발생
- 막대한 연산 및 메모리 자원이 요구
- 실제 데이터의 한 학습 스텝을 합성 데이터의 한 스텝으로 맞추는 방식을 사용하여, 평가 시 여러 스텝을 적용하면 오차가 누적
본 연구는 합성 데이터로 훈련된 파라미터 변화 궤적의 일부 구간을, 실제 데이터로 훈련된 전문가 궤적의 동일 구간과 일치시키도록 설계함. 이를 통해, 단기적인 스텝 매칭이나 전체 궤적 모델링과 같은 어려운 최적화 문제를 피할 수 있음.
1. 실제 데이터로 여러 개의 모델을 학습하고 전문가 궤적을 저장
2. 무작위로 선택한 전문가 궤적의 무작위 시점 파라미터로 모델을 초기화
3. 해당 모델을 합성 데이터로 여러번 학습시킨 뒤, 전문가 궤적의 파라미터와 얼마나 일치하는 지를 손실로 계산하고, 역전파를 통해 합성데이터를 업데이트
해당 방법은 표준 데이터셋 (e.g., CIFAR-100, TinyImagenet)뿐만 아니라, 고해상도 데이터셋 (e.g., ImageNet)에도 적용 가능한 최초의 방법임.

Method

Expert Trajectories

합성 데이터로 훈련된 파라미터 $\hat{\theta}_t$ 궤적이 실제 데이터로 유도된 궤적 (i.e., *전문가 궤적 $\tau^*$)과 유사하도록 합성데이터를 만듦.
전문가 궤적은 실제 데이터셋으로 여러 개의 네트워크를 학습시키고, 각 epoch 마다 파라미터를 저장하여 얻을 수 있으므로, 증류 전에 미리 계산해둘 수 있음.

*원본 데이터셋을 사용해 네트워크를 학습할 때 생성되는 파라미터의 시간적 순서 $\{\theta_t^*\}_{0}^{T}$를 의미

Long-Range Parameter Matching

각 증류 단계에서, 전문가 궤적의 임의 시점 파라미터 $\theta^*_t$를 샘플링하여 학생 파라미터를 초기화함 $\hat{\theta}_t = \theta_t^*$. 이때, 후반부 궤적은 파라미터 변화가 작아 유익한 신호가 적기 때문에, 최대 시점 $T^+$를 설정해 해당 시점 이후는 제외함.
합성 데이터 $\mathcal{D}_{\text{syn}}$를 활용해, 초기화된 학생 네트워크를 $N$번 gradient descent 업데이트 함.
$$
\hat{\theta}_{t+n+1} = \hat{\theta}_{t+n} - \alpha \nabla \ell(\mathcal{A}(\mathcal{D}_{\text{syn}}); \hat{\theta}_{t+n}),
$$
- 여기서, $\mathcal{A}$는 이전 연구에서 사용된 *미분 가능한 augmentation 기법이고, $\alpha$는 학습가능한 learning rate임.
- 역전파를 통해 합성 데이터에 손실을 전달해야 하므로 $\mathcal{A}$는 반드시 미분 가능해야함.
이후, 전문가 궤적에서 $t$ 시점으로부터 $M$ 스텝 이후의 파라미터 $\theta^*_{t+M}$를 가져와 학생 네트워크의 업데이트된 파라미터 $\hat{\theta}_{t+N}$와 비교함. 이때, weight matching loss는 다음과 같이, normalized squared $L_2$임.
$$
\mathcal{L} = \frac{\left\| \hat{\theta}_{t+N} - \theta_{t+M}^* \right\|_2^2}{\left\| \theta_t^* - \theta_{t+M}^* \right\|_2^2}
$$
- Expert distance $ \theta_t^* - \theta_{t+M}^* $로 정규화함으로써, *궤적 후반부처럼 변화량이 적은 구간에서도 강한 신호를 얻을 수 있음.
- 또한, 이 정규화는 neurons간 또는 layers간의 크기 차이도 *self-calibration하는 효과가 있음.
- Cosine distance나 logit matching도 실험적으로 시도되었지만, $L_2$ 손실이 안정적이고 성능이 좋았음.
최종적으로, 이 손실 $\mathcal{L}$을 $N$개의 업데이트 과정 전체를 따라 역전파하여, 합성 이미지의 픽셀과 learning rate $\alpha$를 동시에 최적화함.
이때, 학습 가능한 $\alpha$를 최적화하는 것은, 학생과 전문가의 update 횟수 $(N, M)$를 고정해두고도, 학생의 학습 궤적이 전문가 궤적을 효과적으로 따라가도록 update 크기를 자동으로 조절하는 역할을 함.

*증류 과정에서는 실제 데이터가 전혀 사용되지 않고, 합성 데이터에만 증강을 적용하므로 Siamese augmentation은 필요 없음.
하지만, 전문가 궤적을 생성할 때 적용한 증강 기법과 일치시켜야 함.

*전문가 궤적의 변화가 거의 없으면 즉, $\theta_t^* - \theta_{t+M}^*$가 매우 작은 값을 가지기 때문에 학생 파라미터와 전문가 파라미터 간의 차이가 작더라도 (즉, 분자가 작더라도), 궤적 변화량 대비 상대 오차로 계산되기 때문에, 역전파 신호가 강해짐.

*각 레이어나 뉴런마다 파라미터 크기가 다르기 때문에 단순 $L_2$ 손실을 적용하면, 크기가 큰 레이어에 학습이 편항되게 됨. 전문가가 이동한 전체거리 $ \theta_t^* - \theta_{t+M}^* $는 파라미터 전체의 누적 변화량을 나타내므로, 이를 활용해 정규화를 하면, 큰 파라미터에 과도하게 편향되지 않음.

Memory Constraints

각 최적화 단계마다 모든 클래스의 모든 모든 이미지를 동시에 최적화해야 하므로, 합성 데이터셋의 크기가 커질수록 메모리 소비가 심각한 문제가 됨.
이전 방법들은 한 번에 하나의 클래스만 증류하여 메모리 사용을 줄였지만, trajectory matching에서는 전문가 궤적이 다중 클래스를 동시에 학습한 모델에서 생성되므로, 클래스별 증류 전략이 적절하지 않음.
각 distillation step마다 새로운 mini-batch를 샘플링하여 (outer loop, Algorithm 1 Line 3) 최적화하면 메모리 부담을 줄일 수는 있으나, 중복된 정보가 여러 합성 이미지에 증류되어, 합성 이미지들이 유사해지는 catastrophic mode collapse가 발생할 수 있음.
대신, 학생 네트워크의 각 업데이트마다 (inner loop, Algorithm 1 Line 10) 새로운 mini-batch $b$를 샘플링함. 이렇게 하면 최종 weight matching loss를 계산할 시점에는, 모든 합성 이미지가 한번 씩 학습에 사용되었을 것이 보장됨.

Experiments

Low-Resolution Data

클래스당 합성 이미지를 1장으로 제한하면, 클래스를 구별할 수 있는 모든 정보를 단 1장의 샘플에 압축시켜야 함. 반면, 더 많은 이미지를 허용하면, 클래스를 구별하는 특징들을 여러 이미지에 나누어 분산시킬수 있음.

Cross-Architecture Generalization

Short-Range vs. Long-Range Matching

Short-range matching (e.g., $N = 1$ 및 작은 $M$)은 일반적으로 long-range matching보다 낮은 성능을 보임.
Short-range matching 기반 방법인 DSA는 short-range behavior을 맞추는 데 최적화되어 있어, 학습이 길어질수록 오차가 누적되어 성능이 저하됨.

Tiny ImageNet

Distribution Matching (DM)외의 대부분의 Dataset Distillation 방법들은 메모리 및 시간 소모가 매우 커서 큰 해상도에서는 제대로 작동하지 못함. 반면, 제안 방법은 뛰어난 성능을 보여줌.

ImageNet Subsets

Tiny ImageNet 실험과 유사하게, 대부분의 기존 기법들은 이 정도 해상도에 적용하기 어려움. 따라서, 비교 대상으로 전체 real dataset으로 학습된 네트워크를 사용함.

Discussion and Limitations

제안한 방법은 short-range single-step matching에 의존하지 않으며, 그렇다고 전체 학습 과정을 직접 최적화하는 full-process 방식에도 의존하지 않음. 오히려 두 접근법 사이의 균형을 잡는 전략을 통해, 안정성과 성능 면에서 기존 방법들을 모두 능가함.
본 방법은 $128 \times 128$ 해상도의 ImageNet 이미지에 확장된 최초의 증류 기법임.
제안한 방식은 expert trajectories을 사전 계산하여 메모리 사용량을 줄일 수 있는 장점이 있지만, 동시에 전문가 모델 학습과 궤적 저장을 위한 디스크 공간 및 계산 비용이 요구된다는 한계점이 존재함.

[Paper Review] Dataset condensation with gradient matching (DC)

成學 — Tue, 20 May 2025 14:28:35 +0900

This is a Korean review of "Dataset condensation with gradient matching" presented at ICLR 2021.

TL;DR

Dataset Distillation을, 전체 학습 데이터와 소수의 합성 데이터에서 학습된 신경망 가중치의 gradient 간의 일치 문제(gradient matching problem)로 정식화함.

Introduction

대규모 데이터를 효과적으로 처리하는 전통적인 방법은 coreset construction이며, 이는 *클러스터링 기반의 접근법을 사용함. 또한, continual learning이나 active learning을 통해 대규모 데이터를 효율적으로 다루려는 연구도 활발히 진행되고 있음.
이러한 방법들은 일반적으로 대표성을 정의하는 기준(e.g., diversity, representation 등)을 먼저 설정하고, 해당 기준에 따라 대표 샘플을 선택한 뒤, 선택된 소규모 데이터셋으로 downstream 작업(e.g., classification 등)을 위한 모델을 학습함.
그러나 이러한 접근법들은 heuristic에 의존하기 때문에 downstream 작업에 대해 최적이라는 보장이 없으며, 실제로 대표성 있는 샘플이 존재한다는 것도 보장되지 않음.
본 논문은 이러한 한계를 극복하기 위해, 대규모 원본 데이터와 소규모 합성 데이터로부터 학습된 신경망의 gradient 간 차이를 최소화하는 gradient matching 기반의 dataset distillation 방법을 최초로 제안함.

*전체 데이터들을 몇 개의 중심점(대표 샘플)으로 요약함.

Method

Dataset Condensation

Deep neural network $\phi$는 전체 데이터셋 $\mathcal{T}$에 대해서 다음의 empirical loss를 최소화하여 parameter $\theta$를 최적화함.
$$
\theta^{\mathcal{T}} = \arg\min_{\theta} \mathcal{L}^{\mathcal{T}}(\theta);\quad \mathcal{L}^{\mathcal{T}}(\theta) = \frac{1}{|\mathcal{T}|} \sum_{(x, y) \in \mathcal{T}} \ell(\phi_\theta(x), y)
$$
Dataset distillation의 목적은 condensed synthetic samples $\mathcal{S}$을 만드는 것으로, 이를 통해 학습한 모델은 다음과 같음.
$$
\theta^{\mathcal{S}} = \arg\min_{\theta} \mathcal{L}^{\mathcal{S}}(\theta);\quad \mathcal{L}^{\mathcal{S}}(\theta) = \frac{1}{|\mathcal{S}|} \sum_{(s, y) \in \mathcal{S}} \ell(\phi_\theta(s), y)
$$
이를 통해 얻은 $\phi_{\theta^\mathcal{S}}$ 모델의 일반화 성능이 $\phi_{\theta^\mathcal{T}}$의 일반화 성능과 최대한 가까워야함.
$$
\mathbb{E}_{x \sim P_{\mathcal{D}}} \left[ \ell\left( \phi_{\theta^{\mathcal{T}}}(x), y \right) \right] \simeq \mathbb{E}_{x \sim P_{\mathcal{D}}} \left[ \ell\left( \phi_{\theta^{\mathcal{S}}}(x), y \right) \right]
$$
초기 Dataset Distillation 논문 [related post]은 모델 파라미터 $\theta^\mathcal{S}$를 synthetic data $\mathcal{S}$의 함수로 정의함. 이를 통해 최적의 synthetic images $\mathcal{S}^*$에 학습된 모델 $\theta^\mathcal{S}$이 original dataset $\mathcal{T}$에 대해서 학습 손실이 최소가 되도록 함.
$$
\mathcal{S}^* = \arg\min_\mathcal{S} \mathcal{L}^{\mathcal{T}}(\theta^{\mathcal{S}}(\mathcal{S})) \quad \text{subject to} \quad \theta^{\mathcal{S}}(\mathcal{S}) = \arg\min_{\theta} \mathcal{L}^{\mathcal{S}}(\theta)
$$
하지만, 이는 *nested loop optimization을 포함하고 있으므로 계산 비용이 높음.

*바깥 루프에서는 합성 데이터 $\mathcal{S}$를 업데이트하고, 안쪽 루프에서는 현재 $\mathcal{S}$에 대해 $\theta_\mathcal{S}$를 새로 학습해야 함. 이때, 합성 데이터 $\mathcal{S}$의 gradient를 구하기 위해서는 내부 루프에서 전체 신경망을 다시 학습해야 함.

Dataset Condensation with Parameter Matching

Parameter matching은 합성 데이터 $\mathcal{S}$에서 학습한 모델 $\phi_\theta^\mathcal{S}$이 원본 데이터에서 학습한 모델 $\phi_\theta^\mathcal{T}$와 유사한 일반화 성능을 얻을 뿐 아니라, 파라미터 공간 상에서 유사한 해 $(\theta^\mathcal{S} \approx \theta^\mathcal{T})$로 수렴하도록 유도함.
$\phi_\theta$가 locally smooth function일 때, 유사한 weight $(\theta^\mathcal{S} \approx \theta^\mathcal{T})$는 국소 영역에서 유사한 mapping을 의미하고, 결과적으로 유사한 일반화 성능을 의미함. 이러한 목표는 다음의 식으로 표현될 수 있음.
$$
\min_\mathcal{S} D(\theta^\mathcal{S}, \theta^\mathcal{T}) \quad \text{subject to} \quad \theta^\mathcal{S}(\mathcal{S}) = \arg\min_{\theta} \mathcal{L}^\mathcal{S}(\theta)
$$
즉, $\theta^\mathcal{S}$를 $\mathcal{S}$ 데이터에서 훈련하여 얻은 최적의 파라미터라고 할때, $\theta^\mathcal{S}$와 $\theta^\mathcal{T}$간의 거리를 최소화하여 $\mathcal{S}$를 최적화 하는 문제임.
위는 하나의 고정된 초기값 $\theta_0$에서 학습된 모델에 최적화된 합성데이터를 얻지만, 실제로는 랜덤 초기값에 대해서 잘 작동하는 합성데이터를 만들어야 함.
$$
\min_\mathcal{S} \mathbb{E}_{\theta_0 \sim P_{\theta_0}} \left[ D(\theta^\mathcal{S}(\theta_0), \theta^\mathcal{T}(\theta_0)) \right]
\quad \text{subject to} \quad
\theta^\mathcal{S}(\mathcal{S}) = \arg\min_{\theta} \mathcal{L}^\mathcal{S}(\theta(\theta_0))
$$
하지만, 이 또한 합성 데이터 $\mathcal{S}$에 따라 모델 $\theta_\mathcal{S}$를 다시 학습해야 하기 때문에, 매우 큰 계산 비용이 요구됨. 이를 해결하기 위해서, $\theta^\mathcal{S}$를 *incomplete optimization의 출력으로 재정의하는 back-optimization 접근을 활용할 수 있음.
$$
\theta^\mathcal{S}(\mathcal{S}) = \text{opt-alg}_{\theta}(\mathcal{L}^\mathcal{S}(\theta), \varsigma)
$$
실제 구현에서는 서로 다른 초기값에 대해 $\theta_\mathcal{T}$를 미리 offline으로 학습해두고, 이를 target parameter vector로 사용할 수 있지만, 이는 아래의 두가지 문제가 있음.
1. $\theta_\mathcal{S}$가 학습되는 중간 단계에서는 $\theta_\mathcal{T}$와의 거리가 매우 멀 수 있으며, 이 경로상에 다수의 local minimum가 존재해 도달하기 어려움.
2. $\text{opt-alg}$ 최적화 과정은 계산 속도와 정확도 간의 trade-off로 인해 제한된 step $(\varsigma)$만 진행되므로 최적해에 도달하기 어려움.

*최적의 해를 다 찾기 전에 중간에서 멈추는 최적화, 즉 중간 몇 step까지만 최적화를 진행하고 멈춤.

Dataset Condensation with Curriculum Gradient Matching

Parameter matching의 문제를 해결하기 위해 curriculum 기반의 방법을 제안하여, $\theta^\mathcal{S}$가 최종 $\theta^\mathcal{T}$와 가까워지는 것뿐만 아니라, *$\theta^\mathcal{S}$와 비슷한 경로를 따르도록 함.
$$
\min_\mathcal{S} \mathbb{E}_{\theta_0 \sim P_{\theta_0}} \left[ \sum_{t=0}^{T-1} D(\theta_t^\mathcal{S} , \theta_t^\mathcal{T}) \right]
\quad \text{subject to} $$ $$
\theta_{t+1}^\mathcal{S}(\mathcal{S}) = \text{opt-alg}_\theta(\mathcal{L}^S(\theta_t^\mathcal{S}), \varsigma^\mathcal{S})
\quad \text{and} \quad
\theta_{t+1}^\mathcal{T} = \text{opt-alg}_\theta(\mathcal{L}^\mathcal{T}(\theta_t^\mathcal{T}), \varsigma^\mathcal{T})
$$
이를 통해, 매 iteration마다, 합성데이터 $\mathcal{S}$로 학습된 파라미터 $\theta^\mathcal{S}_t$가 원본데이터로 학습된 파라미터 $\theta^\mathcal{T}_t$와 유사하도록 합성데이터 $\mathcal{S}$를 학습하게 됨.
$D(\theta^\mathcal{S}_t, \theta^\mathcal{T}_t) \approx 0$을 통해서, $\theta^\mathcal{T}_t$를 $\theta^\mathcal{S}_t$로 대체하고 $\theta^\mathcal{S}$를 $\theta$로 표기하면 다음과 같이 단순화할 수 있음.
$$
\theta_{t+1}^\mathcal{S} \leftarrow \theta_t^\mathcal{S} - \eta_\theta \nabla_\theta \mathcal{L}^S(\theta_t^\mathcal{S})
\quad \text{and} \quad
\theta_{t+1}^\mathcal{T} \leftarrow \theta_t^\mathcal{T} - \eta_\theta \nabla_\theta \mathcal{L}^T(\theta_t^\mathcal{T})
$$ $$
\min_S \mathbb{E}_{\theta_0 \sim P_{\theta_0}} \left[ \sum_{t=0}^{T-1} D\left( \nabla_\theta \mathcal{L}^S(\theta_t), \nabla_\theta \mathcal{L}^T(\theta_t) \right) \right].
$$
즉, 모델 파라미터 $\theta$에 대한 원본데이터 loss와 합성데이터 loss의 gradient를 일치시키도록 $\mathcal{S}$를 업데이트할 수 있음. 이를 통해, *이전 파라미터들에 대한 계산 그래프를 unroll할 필요가 없다는 장점이 있음.

*$\theta$가 자유롭게 최적화되는 걸 제한할 수 있지만, 원하는 방향으로 수렴하도록 최적화 방향을 더 잘 안내해주고, step 수가 적은 optimization이라도 좋은 결과를 얻을 수 있음.

*기존 방법은 모델 파라미터가 여러 스텝에 걸쳐 업데이트되는 전체 과정을 추적해야 하며, 그 경로에 따라 역전파를 적용할 수 있도록 계산 그래프를 풀어서(unroll) 저장해야 함. 즉, $(\theta_1 \rightarrow \theta_2 \rightarrow \dots \rightarrow \theta_T)$. 따라서 이는 시간과 메모리 소모가 큼.

반면, gradient mathcing 방법은 현재 시점의 파라미터에 대한 gradient만 계산하면 되므로, 파라미터 경로를 역추적하거나 저장할 필요가 없음. 즉, 계산 그래프를 unroll할 필요가 없음.

Algorithm

합성데이터가 다양한 초기 모델에서도 잘 작동하도록, outer loop에서는 매번 $\theta$를 무작위로 초기화한 뒤 그에 맞춰 합성데이터를 학습시킴.
$\theta$가 무작위로 초기화되면, 원본데이터에 대한 loss $\mathcal{L}^\mathcal{T}$와 합성데이터에 대한 loss $\mathcal{L}^\mathcal{S}$을 구하고, $\theta$에 대한 gradient를 구함
gradient $\nabla_\theta\mathcal{L}^\mathcal{S}$를 $\nabla_\theta\mathcal{L}^\mathcal{T}$와 가깝도록 합성데이터 $\mathcal{S}$를 최적화함.
- 매 iteration마다, 하나의 클래스에 해당하는 샘플로만 원본데이터와 합성데이터 손실함수를 계산하며, 각 클래스에 대한 합성데이터를 병렬적으로 업데이트함.
- 여러 클래스를 동시에 흉내내는 것 보다, 단일 클래스에 대해 평균 gradient를 모방하는 것이 더 쉬움.
업데이트된 합성데이터를 사용하여, Loss $\mathcal{L}^\mathcal{S}$가 최소화되도록 $\theta$를 학습시킴.

Gradient mathcing loss

$\phi_\theta$가 multi-layered neural network 이므로, matching loss $D$를 layerwise loss $d$의 합으로 표현할 수 있음.
$$
D(\nabla_\theta \mathcal{L}^\mathcal{S}, \nabla_\theta \mathcal{L}^\mathcal{T}) = \sum_{l=1}^{L} d(\nabla_{\theta^{(l)}} \mathcal{L}^\mathcal{S}, \nabla_{\theta^{(l)}} \mathcal{L}^\mathcal{T})
$$ $$
d(\mathbf{A}, \mathbf{B}) = \sum_{i=1}^{\text{out}} \left( 1 - \frac{\mathbf{A}_i \cdot \mathbf{B}_i}{\|\mathbf{A}_i\| \|\mathbf{B}_i\|} \right)
$$
- $\mathbf{A}_i, \mathbf{B}_i$는 각 출력 노드 $i$에 해당하는 gradient를 flatten한 vector임.

Experiments

Dataset Condensation

합성데이터는 Gaussian nosie로부터 초기화되거나 원본데이터에서 무작위로 선택됨.
Dataset condensation은 합성데이터를 학습하는 단계 ($\text{C}$)와 이 합성데이터에 classifer를 학습하는 단계 $(\text{T})$의 두 단계로 이루어져 있음.
실험평가를 위해, 첫번 째 단계에서는 5개의 합성데이터를 생성하고, 두번 째 단계에서는 각 합성데이터에 대해서 20개의 무작위로 초기화된 모델이 학습됨. 즉, 100개의 모델이 평가됨.

Cross-architecture generalization

본 논문에서 제안한 방법은 하나의 네트워크 구조에서 학습된 합성이미지를 다른 네트워크 구조를 학습하는 데에도 사용할 수 있다는 장점이 있음. Table 2는 다양한 모델을 대상으로, 합성이미지가 구조에 상관없이 잘 작동한다는 것을 보여줌.

Applications

Continual Learning

Neural Architecture Search

Dataset Distillation으로 합성한 이미지를 활용하면, 다양한 모델을 빠르게 학습시키고 성능을 검증하여 최적의 구조를 효율적으로 얻을 수 있음.

Conclusion

본 논문은 최초의 gradient matching 기반 dataset distillation 방법을 제안함.
제안된 방법으로 생성된 이미지들은 특정 모델 구조에 종속되지 않기 때문에, 서로 다른 구조의 모델들을 학습하는 데에도 활용될 수 있음.
ImageNet처럼 복잡하고 고해상도의 데이터셋으로 확장할 필요가 있음.

[Paper Review] Dataset Distillation (DD)

成學 — Sun, 18 May 2025 12:38:45 +0900

This is a Korean review of "Dataset Distillation" presented at arXiv 2018.

TL;DR

전체 학습 데이터의 지식을 소수의 합성 데이터로 압축하는 Dataset Distillation 방법을 최초로 제안

Intoduction

본 논문은 고정된 모델에 대해 전체 훈련 데이터셋을 몇 장의 합성 이미지로 압축하는 Dataset Distillation이라는 새로운 과제를 제안함.
일반적으로 합성 데이터는 실제 데이터와 분포가 달라 학습에 부적합하다고 여겨지지만, 본 연구는 소수의 synthetic data만으로도 이미지 분류 모델을 효과적으로 학습시킬 수 있음을 보여줌.
이를 위해 *모델의 파라미터를 합성 이미지의 미분 가능한 함수로 표현하고, 가중치를 직접 최적화하는 대신 합성 이미지의 픽셀값을 최적화하는 방식을 사용함.
다만 이 접근은 초기 파라미터에 대한 접근을 요구하므로, 이를 완화하기 위해 **랜덤 초기화를 고려한 distilled image 생성 방식도 제안함.
더 나아가, 여러 에폭에 걸쳐 학습할 수 있는 distilled image 시퀀스를 생성하는 iterative 버전도 함께 제안되어 성능을 추가적으로 향상시킴.

*모델의 업데이트가 합성 이미지에 의해 결정되므로, 이 합성 이미지도 마치 파라미터처럼 최적화하여 real data에서 좋은 성능을 내도록 학습할 수 있음.

**특정 단일 초기 파라미터에서 학습된 합성데이터는 다른 초기 파라미터를 가진 모델에서 성능이 떨어질 수 있으므로, 초기 파라미터를 확률 분포에서 샘플링하여 다양한 초기화에 대응할 수 있음.

Related Works

Dataset pruning, core-set construction, and instance selection

Dataset pruning, core-set construction, and instance selection 계열의 방법들은 전체 데이터셋 중 모델 학습에 중요한 일부 샘플만 사용하거나, active learning을 통해 의미 있는 샘플만 라벨링하는 방식으로 데이터셋을 압축함.
하지만 이러한 방법들은 실제 이미지만을 사용해야 하므로, 클래스당 많은 수의 샘플이 필요함.

Approach

Sec. 3.1: 고정된 초기값에서 한번의 gradient descent만으로 네트워크를 학습시키시는 optimization 알고리즘
Sec. 3.2: 랜덤 초기화에서의 optimization
Sec. 3.4: 여러 번의 gradient descent step과 여러 epoch 학습으로 확장

Optimizing Distilled Data

sinlge step으로 만든 합성데이터 $( \tilde{\mathbf{x}} )$ 가 실제 데이터 $ (\mathbf{x}) $ 에서도 높은 성능을 달성하기 위해 다음의 수식을 적용함.
$$
\theta_1 = \theta_0 - \tilde{\eta} \nabla_{\theta_0} \ell( \tilde{\mathbf{x}} , \theta_0)
$$ $$
\tilde{\mathbf{x}}^*, \tilde{\eta}^* = \arg\min_{\tilde{\mathbf{x}}, \tilde{\eta}} \mathcal{L}(\tilde{\mathbf{x}}, \tilde{\eta}; \theta_0)
= \arg\min_{\tilde{\mathbf{x}}, \tilde{\eta}} \ell(\mathbf{x}, \theta_1)
= \arg\min_{\tilde{\mathbf{x}}, \tilde{\eta}} \ell\left(\mathbf{x}, \theta_0 - \tilde{\eta} \nabla_{\theta_0} \ell(\tilde{\mathbf{x}}, \theta_0)\right)
$$

Distilation for Random Initialization

3.1절에서 제안된 고정된 초기값에 대한 최적화 방법은, 다른 초기값에 대해서는 일반화 성능이 좋지 않음.
이러한 distilled data는 랜덤 노이즈처럼 보이기도 하는데 (Fig. 2), 이는 해당 데이터가 훈련 데이터뿐 아니라 특정 초기 가중치까지 암묵적으로 인코딩하고 있기 때문임.
따라서, 특정 분포 $ p(\theta_0) $ 로부터 샘플링된 랜덤 초기화 네트워크에서도 잘 작동하도록, 다음과 같은 기대값 기반 최적화 문제를 정의함.
$$
\tilde{\mathbf{x}}^*, \tilde{\eta}^* = \arg\min_{\tilde{\mathbf{x}}, \tilde{\eta}} \mathbb{E}_{\theta_0 \sim p(\theta_0)} \mathcal{L}(\tilde{\mathbf{x}}, \tilde{\eta}; \theta_0)
$$
이렇게 얻어진 합성 데이터는 보지 않은 초기화에 대해서도 잘 일반화되며, 각 클래스의 판별적인 특징을 시각적으로 잘 담고 있는 정보량 높은 이미지들로 나타남 (Fig. 3).
다만, 이 방법이 잘 작동하기 위해서는, 초기화 $ \theta_0 \sim p(\theta_0) $에 따라 손실 함수가 가지는 로컬 조건 (예: 손실 함수의 곡률, gradient 크기, 업데이트 방향 등)이 유사해야 해야 함. → 그래야 같은 합성 이미지를 사용해도 모델이 전혀 다른 방향으로 업데이트되는 문제를 피할 수 있음.

¶Analysis of A Simple Linear Case

선형 회귀 문제 분석을 통해, 한번의 gradient descent step으로 어떠한 초기화에도 잘 작동하는 합성 데이터를 만들기 위해서는 (i.e., 정확한 global minimum을 달성하기 위해서는), 합성 데이터 수가 feature 차원 수 이상이어야 함. → 실제 이미지 데이터는 수천~수십만 차원이기 때문에 현실적으로는 제한적임.
따라서, $ p(\theta_0) $ 분포를 적절하게 제한하여, 유사한 로컬 조건을 가지는 초기화들만 적용해야 실용적인 학습이 가능함. → 여러 번의 gradient descent step과 여러 epoch 학습으로 확장 필요

¶원문 참고

Multiple Gradient Descent Steps and Multiple Epochs

단일 gradient descent step만으로는 학습이 부족하므로, 이를 여러 단계로 확장하여 다음과 같이 학습을 수행함.
$$
\theta_{i+1} = \theta_i - \tilde{\eta}_i \nabla_{\theta_i} \ell(\tilde{\mathbf{x}}_i, \theta_i)
$$
Multiple epoch은 위의 gradient descent step 시퀀스 전체를 여러 번 반복하는 것으로 구현됨.

Experiments

Dataset Distillation

Fixed initialization and Random initialization

Multiple gradient descent steps and multiple epochs

초기 step에서는 이미지가 noise가 가까워 보이지만, 이후에는 real data처럼 보이고, 각 클래스에 대한 discriminative feature를 공유함 (Fig. 3).
더 오래 (more steps), 더 반복 (more epoch) 해서 학습할수록 모델은 distilled image로부터 더 많은 지식을 흡수할 수 있음.
동일한 distilled image에서, multiple steps을 사용하는 것이 sinlge step을 사용하는 것보다 더욱 뛰어난 성능을 보여줌.

Discussion

본 논문은 전체 학습 데이터의 지식을 소수의 합성 데이터로 압축하는 Dataset Distillation 방법을 최초로 제안함.
제안된 방법은 small distillaed image와 several gradient descent step만으로 높은 분류 성능을 달성할 수 있음.
향후에는 ImageNet과 같은 대규모 시각 데이터뿐만 아니라, 오디오·텍스트 등 다양한 데이터 형태로의 확장이 필요함.
현재 방법은 모델 초기화 분포에 민감하다는 한계가 있음. → 보다 강건한 초기화 전략에 대한 추가 연구가 필요함.