Paper Review/Knowledge Distillation 18

[Paper Review] Knowledge Distillation with Refined Logits

This is a Korean review of"Knowledge Distillation with Refined Logits"presented at ICCV 2025.TL;DR고성능 교사 모델도 틀린 예측을 할 수 있으며, 이를 무조건 따르게 하면 학생 모델의 학습 목표가 정답 레이블과 충돌하게 됨. 기존의 correction-based method와 달리, class correlation을 유지하면서 오답을 정제하는 방식을 제안함.sample confidence를 통해 학생이 정답에 대해 가져야 할 적절한 confidence 수준을 가르치고, masked correlation을 통해 교사가 정답보다 높게 평가한 오답들은 masking하고 나머지 클래스들 간의 class correlation을 배우게 함..

[Paper Review] What to Distill? Fast Knowledge Distillation with Adaptive Sampling

This is a Korean review of"What to Distill? Fast Knowledge Distillation with Adaptive Sampling"presented at ICCV 2025.TL;DR지식 증류에 기여하는 데이터의 특성을 규명하기 위해 교사-학생 간 차이인 quantity of knowledge과 교사-정답 간 차이인 quality of knowledge이라는 분석 지표를 정의함.지식의 양이 풍부한 샘플을 우선적으로 선택하는 quantity-based subsampling과 quality가 낮은 지식의 영향력을 줄이는 quality-calibrated loss weighting을 제안함. Introduction데이터의 선택은 KD의 효과와 효율성에 큰 영향을 미치지미..

[Paper Review] VRM: Knowledge Distillation via Virtual Relation Matching

This is a Korean review of"VRM: Knowledge Distillation via Virtual Relation Matching"presented at ICCV 2025.TL;DRRelation mathcing(RM)이 Instance mathcing(IM)보다 overfitting에 취약하고, 노이즈 샘플의 부정적인 gradient가 배치 전체로 확산되는 문제를 식별함.Virtual view를 생성하여 real-virtual sample 간의 상관관계를 학습 신호로 활용하여 Regularization를 강화하고 성능을 향상시킴.중북된 연산을 줄이고(redundant edges) 신뢰할 수 없는 관계를 차단(unreliable edges)하는 프루닝 전략을 적용함. Pilot S..

[Paper Review] ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift

This is a Korean review of "ShiftKD: Benchmarking Knowledge Distillation underDistribution Shift" published in arXiv 2025. TL;DRReal-world에서는 훈련 데이터와 테스트 데이터 간의 분포 차이가 빈번하게 발생함. 따라서, Domain Shift에서 기존 KD 방법들의 신뢰성과 강건성을 확인해야 함.두 가지의 일반적인 분포 변화 유형(Diversity shift, Correlation shift)에서 다양한 KD 기법들을 평가하며, 이외에도 데이터 증강, 프루닝, 최적화 알고리즘에 따른 성능 변화를 분석함. Introduction잘 학습된 대형 모델이 주어졌을 때, 분포 이동 상황에서도 성능 저하 없..

[Paper Review] CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation

This is a Korean review of"CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation"presented at CVPR 2024. TL;DRLiDAR-Camera (LC) fusion이 가장 높은 성능을 기록하지만, 높은 비용이 요구되므로 기술 도입이 어려움. 반면, Camera-Radar (CR) fusion은 일반적으로 쉽게 적용할 수 있지만, LC fusion보다 낮은 성능을 기록함.본 연구는 LC fusion을 teacher model로, CR fusion을 student model로 사용하는 CRKD를 제안함. 이 때, 공유된 특징 공간으로 Bird's-Eye-View (BEV)..

[Paper Review] Scale Decoupled Distillation

This is a Korean review of"Scale Decoupled Distillation"presented at CVPR 2024.TL;DR기존 logit-based KD는 multiple semantic knowledge가 couple 되어 있는 global logit ouput을 활용하기 때문에 ambigous knowledge를 전달하며, sub-optimal 함.Scale Decoupled Distillation $($SDD$)$ 를 통해 global logit을 multiple local logit으로 분리하여, fine-grained 하고 unambiguous logit을 전달하도록 함.더 나아가, decoupled knowledge를 consistent logit과 compleme..

[Paper Review] Logit Standardization in Knowledge Distillation

This is a Korean review of"Logit Standardization in Knowledge Distillation"presented at CVPR 2024.TL;DRKD에서 teacher와 student의 soft label $($i.e., prediction$)$을 얻을 때 사용하는 shared temperature은 teacher와 student logits의 range와 variance의 mandatory exact match를 전제로 함. $($in fact, relation is important.$)$기존 방법의 한계를 극복하기 위해, adaptive temperature로 weighted logit standard deviation을 사용함.이를 활용해, softmax를 ..

[Paper Review] Instance-conditional knowledge distillation for object detection

This is a Korean review of "Instance-conditional knowledge distillation for object detection" presented at NeurIPS 2021.Introduction High performance의 Deep Learning Networks의 성능을 얻기 위해서는, 불가피하게 많은 양의 parameters를 수반하게 되며, 이는 high computational cost와 memory를 요구함.따라서, Resource-limited devices에서 object detection과 같은 실용적인 application을 사용하기 위해, network pruning, quantization, mobile architecture design..

[Paper Review] CrossKD: Cross-Head Knowledge Distillation for Object Detection

This is a Korean review of"CrossKD: Cross-Head Knowledge Distillation for Object Detecton"presented at CVPR 2024.TL;DRCrossKD라는 효과적인 prediction mimicking distillation scheme을 제안하여, student의 dtection head의 중간 feature를 teacher의 detection head에 전달함. 이러한 cross-head prediction은 teacher의 prediction을 모방하게 됨.본 방식은 student head의 annotation과 teacher prediction으로부터의 contradictory supervision signal 전달을 완화하..

[Paper Review] ScaleKD: Distilling Scale-Aware Knowledge in Small Object Detector

This is a Korean review of "ScaleKD: Distilling Scale-Aware Knowledge in Small Object Detectors" presented at CVPR 2023.TL;DRScale-decoupled feautre distllation module을 통해 teacher의 feature를 multi-scale embedding에 disentangled하여, small object에 대한 학생의 feature mimicking을 용이하게 함.Cross-scale assistant를 통해, student에게 부정적인 결과를 초래하는 noisy하고 uninformative한 bounding box prediction을 refine함.Multi-scale cro..