Paper Review 32

[Paper Review] Evidential Knowledge Distillation

This is a Korean review of"Evidential Knowledge Distillation"presented at ICCV 2025.TL;DR기존의 로짓 기반 지식 증류 방법들은 확률 분포를 singularly deterministic으로 취급하여, 모델 예측에 내재된 본질적인 불확실성을 무시함.확률을 고정된 값이 아닌, second-order Dirichlet 분포에 의해 지배되는 확률 변수로 재정의하여 지식의 표현력을 확장함.macro(2차 분포의 기댓값을 정렬하여 클래스 간의 상대적 비율 관계를 최적화)와 micro(2차 분포 자체를 정렬하여 모델 출력의 수치적 크기를 일치)수준의 지식 전달을 결합한 새로운 증류 기법을 제안함.PAC-Bayesian 이론을 활용하여 EKD의 최적화..

[Paper Review] Knowledge Distillation with Refined Logits

This is a Korean review of"Knowledge Distillation with Refined Logits"presented at ICCV 2025.TL;DR고성능 교사 모델도 틀린 예측을 할 수 있으며, 이를 무조건 따르게 하면 학생 모델의 학습 목표가 정답 레이블과 충돌하게 됨. 기존의 correction-based method와 달리, class correlation을 유지하면서 오답을 정제하는 방식을 제안함.sample confidence를 통해 학생이 정답에 대해 가져야 할 적절한 confidence 수준을 가르치고, masked correlation을 통해 교사가 정답보다 높게 평가한 오답들은 masking하고 나머지 클래스들 간의 class correlation을 배우게 함..

[Paper Review] What to Distill? Fast Knowledge Distillation with Adaptive Sampling

This is a Korean review of"What to Distill? Fast Knowledge Distillation with Adaptive Sampling"presented at ICCV 2025.TL;DR지식 증류에 기여하는 데이터의 특성을 규명하기 위해 교사-학생 간 차이인 quantity of knowledge과 교사-정답 간 차이인 quality of knowledge이라는 분석 지표를 정의함.지식의 양이 풍부한 샘플을 우선적으로 선택하는 quantity-based subsampling과 quality가 낮은 지식의 영향력을 줄이는 quality-calibrated loss weighting을 제안함. Introduction데이터의 선택은 KD의 효과와 효율성에 큰 영향을 미치지미..

[Paper Review] VRM: Knowledge Distillation via Virtual Relation Matching

This is a Korean review of"VRM: Knowledge Distillation via Virtual Relation Matching"presented at ICCV 2025.TL;DRRelation mathcing(RM)이 Instance mathcing(IM)보다 overfitting에 취약하고, 노이즈 샘플의 부정적인 gradient가 배치 전체로 확산되는 문제를 식별함.Virtual view를 생성하여 real-virtual sample 간의 상관관계를 학습 신호로 활용하여 Regularization를 강화하고 성능을 향상시킴.중북된 연산을 줄이고(redundant edges) 신뢰할 수 없는 관계를 차단(unreliable edges)하는 프루닝 전략을 적용함. Pilot S..

[Paper Review] What Makes a Good Dataset for Knowledge Distillation?

This is a Korean review of "What Makes a Good Dataset for Knowledge Distillation?" presented at CVPR 2025. TL;DR일반적인 KD는 학생 모델을 학습할 때, 선생 모델이 학습한 원본 데이터셋을 사용할 수 있다는 가정이 있지만, 실제 application에서는 항상 가능한 것이 아님.이를 극복하기 위해, 'supplemental data'를 사용하는 것을 고려할 수 있음. 그렇다면, 어떤 데이터셋이 지식을 전달할 때에 좋은 데이터셋일까?Real하고, In-domain dataset 만이 유일한 방법이라고 생각할 수 있지만, 본 연구를 통해, unnatural synthetic dataset도 대안이 될 수 있음을 보임. ..

[Paper Review] ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift

This is a Korean review of "ShiftKD: Benchmarking Knowledge Distillation underDistribution Shift" published in arXiv 2025. TL;DRReal-world에서는 훈련 데이터와 테스트 데이터 간의 분포 차이가 빈번하게 발생함. 따라서, Domain Shift에서 기존 KD 방법들의 신뢰성과 강건성을 확인해야 함.두 가지의 일반적인 분포 변화 유형(Diversity shift, Correlation shift)에서 다양한 KD 기법들을 평가하며, 이외에도 데이터 증강, 프루닝, 최적화 알고리즘에 따른 성능 변화를 분석함. Introduction잘 학습된 대형 모델이 주어졌을 때, 분포 이동 상황에서도 성능 저하 없..

[Paper Review] Dataset Condensation with Distribution Matching (DM)

This is a Korean review of "Dataset Condensation with Distribution Matching" presented at WACV 2023. TL;DRDD를 통해 합성된 이미지로 모델을 빠르게 학습할 수 있지만, 이미지 생성 과정은 복잡한 bi-level optimization과 second-order derivatives computation 때문에 계산 비용이 매우 큼.본 논문은 many sampled embedding spaces에서 합성 이미지와 원본 이미지의 feature distribution을 일치시키는 방식으로 이미지를 합성하는, 최초의 distribution matching 기반 dataset distillation 방법을 제안함. Introduc..

[Paper Review] Dataset Distillation by Matching Training Trajectories (MTT)

This is a Korean review of "Dataset Distillation by Matching Training Trajectories" presented at CVPR 2022. TL;DR합성데이터를 학습할 때, 모델의 파라미터가 실제 데이터로 학습했을 때의 파라미터 궤적과 유사한 경로를 따르도록 설계함.이를 위해, 실제 데이터로 사전 학습된 전문가 네트워크의 학습 궤적(trajectory)을 미리 계산하고 저장함. Introduction기존 연구는 주로 낮은 해상도의 데이터셋 (e.g., MNIST, CIFAR)에만 국한되고, 다음의 한계가 존재함.여러 반복을 unroll하는 과정에서 학습 불안정성 발생막대한 연산 및 메모리 자원이 요구실제 데이터의 한 학습 스텝을 합성 데이터의 한 스..

[Paper Review] Dataset condensation with gradient matching (DC)

This is a Korean review of "Dataset condensation with gradient matching" presented at ICLR 2021. TL;DRDataset Distillation을, 전체 학습 데이터와 소수의 합성 데이터에서 학습된 신경망 가중치의 gradient 간의 일치 문제(gradient matching problem)로 정식화함. Introduction대규모 데이터를 효과적으로 처리하는 전통적인 방법은 coreset construction이며, 이는 *클러스터링 기반의 접근법을 사용함. 또한, continual learning이나 active learning을 통해 대규모 데이터를 효율적으로 다루려는 연구도 활발히 진행되고 있음.이러한 방법들은 일반적으..