전체 글 44

[Paper Review] What Makes a Good Dataset for Knowledge Distillation?

This is a Korean review of "What Makes a Good Dataset for Knowledge Distillation?" presented at CVPR 2025. TL;DR일반적인 KD는 학생 모델을 학습할 때, 선생 모델이 학습한 원본 데이터셋을 사용할 수 있다는 가정이 있지만, 실제 application에서는 항상 가능한 것이 아님.이를 극복하기 위해, 'supplemental data'를 사용하는 것을 고려할 수 있음. 그렇다면, 어떤 데이터셋이 지식을 전달할 때에 좋은 데이터셋일까?Real하고, In-domain dataset 만이 유일한 방법이라고 생각할 수 있지만, 본 연구를 통해, unnatural synthetic dataset도 대안이 될 수 있음을 보임. ..

[Paper Review] ShiftKD: Benchmarking Knowledge Distillation under Distribution Shift

This is a Korean review of "ShiftKD: Benchmarking Knowledge Distillation underDistribution Shift" published in arXiv 2025. TL;DRReal-world에서는 훈련 데이터와 테스트 데이터 간의 분포 차이가 빈번하게 발생함. 따라서, Domain Shift에서 기존 KD 방법들의 신뢰성과 강건성을 확인해야 함.두 가지의 일반적인 분포 변화 유형(Diversity shift, Correlation shift)에서 다양한 KD 기법들을 평가하며, 이외에도 데이터 증강, 프루닝, 최적화 알고리즘에 따른 성능 변화를 분석함. Introduction잘 학습된 대형 모델이 주어졌을 때, 분포 이동 상황에서도 성능 저하 없..

[Paper Review] Dataset Condensation with Distribution Matching (DM)

This is a Korean review of "Dataset Condensation with Distribution Matching" presented at WACV 2023. TL;DRDD를 통해 합성된 이미지로 모델을 빠르게 학습할 수 있지만, 이미지 생성 과정은 복잡한 bi-level optimization과 second-order derivatives computation 때문에 계산 비용이 매우 큼.본 논문은 many sampled embedding spaces에서 합성 이미지와 원본 이미지의 feature distribution을 일치시키는 방식으로 이미지를 합성하는, 최초의 distribution matching 기반 dataset distillation 방법을 제안함. Introduc..

[Paper Review] Dataset Distillation by Matching Training Trajectories (MTT)

This is a Korean review of "Dataset Distillation by Matching Training Trajectories" presented at CVPR 2022. TL;DR합성데이터를 학습할 때, 모델의 파라미터가 실제 데이터로 학습했을 때의 파라미터 궤적과 유사한 경로를 따르도록 설계함.이를 위해, 실제 데이터로 사전 학습된 전문가 네트워크의 학습 궤적(trajectory)을 미리 계산하고 저장함. Introduction기존 연구는 주로 낮은 해상도의 데이터셋 (e.g., MNIST, CIFAR)에만 국한되고, 다음의 한계가 존재함.여러 반복을 unroll하는 과정에서 학습 불안정성 발생막대한 연산 및 메모리 자원이 요구실제 데이터의 한 학습 스텝을 합성 데이터의 한 스..

[Paper Review] Dataset condensation with gradient matching (DC)

This is a Korean review of "Dataset condensation with gradient matching" presented at ICLR 2021. TL;DRDataset Distillation을, 전체 학습 데이터와 소수의 합성 데이터에서 학습된 신경망 가중치의 gradient 간의 일치 문제(gradient matching problem)로 정식화함. Introduction대규모 데이터를 효과적으로 처리하는 전통적인 방법은 coreset construction이며, 이는 *클러스터링 기반의 접근법을 사용함. 또한, continual learning이나 active learning을 통해 대규모 데이터를 효율적으로 다루려는 연구도 활발히 진행되고 있음.이러한 방법들은 일반적으..

[Paper Review] Dataset Distillation (DD)

This is a Korean review of "Dataset Distillation" presented at arXiv 2018. TL;DR전체 학습 데이터의 지식을 소수의 합성 데이터로 압축하는 Dataset Distillation 방법을 최초로 제안 Intoduction본 논문은 고정된 모델에 대해 전체 훈련 데이터셋을 몇 장의 합성 이미지로 압축하는 Dataset Distillation이라는 새로운 과제를 제안함.일반적으로 합성 데이터는 실제 데이터와 분포가 달라 학습에 부적합하다고 여겨지지만, 본 연구는 소수의 synthetic data만으로도 이미지 분류 모델을 효과적으로 학습시킬 수 있음을 보여줌.이를 위해 *모델의 파라미터를 합성 이미지의 미분 가능한 함수로 표현하고, 가중치를 직접 최..

[Paper Review] Image Data Augmentation Approaches (~ 2. Advanced Image Data Augmentation, 2.1. Image Mixing)

This is a Korean Review of "Image Data Augmentation Approaches: A Comprehensive Survey and Future Directions" published in IEEE Access Taxonomy and BackgroundImage 데이터는 일반적으로 RGB 3개의 Channel로 이루어져 있으며, Height × Width × Channel의 차원으로 표현됨. Data Augmentation은 Basic Image Data Augmentation과 Advanced Image Data Augmentation으로 분류할 수 있음.Basic은 Data Augmentation를 위한 기초적인 기술을 다루며, Advanced는 더욱 복잡한 기술을 다룸..

[Paper Review] Image Data Augmentation Approaches (~ 1. Basic Image Data Augmentation)

This is a Korean Review of "Image Data Augmentation Approaches: A Comprehensive Survey and Future Directions" published in IEEE AccessIntroduction다양한 Neural Networks중에서, CNN은 Convolution Layer를 사용하여 Image의 다양한 Feature를 학습함.Initial Layer는 Edge나 Line과 같은 Low-Level Feature에 집중하며, Deeper Layer는 더욱 구조화되고 복잡한 Feture에 집중함.CNN의 대안으로서, Vision Transformer(ViT)가 등장하였음. 이는 Self-Attention을 사용하여 *Long-Range D..

GPU Setting: Ubuntu ~ NVIDIA Driver ~ CUDA Toolkit ~ 가상환경 설치

0. Intro노트북 GPU를 사용하여 코드를 돌리려고 했는데, 셋팅 과정에서 여러 문제가 있었다. 설치 과정에서의 어려움을 줄이기 위해 아래의 과정들을 기록한다. 1. Ubuntu Download 나는 가장 무난하다고 생각하는 18.04 LTS를 다운받았다. (클릭하면 iso가 바로 설치)20.04 LTS로 업데이트 했다.다른 원하는 버전이 있다면, 우분투 홈페이지에서 다운받을 수 있다. 2. Startup Disk Creator  우분투 설치 USB를 만들기 위해 Startup Disk Creator를 설치해야 한다.$ sudo apt install usb-creator-gtk USB를 연결하고 설치된 소프트웨어를 열면, 자동으로 위에서 설치한 iso 파일과 USB 드라이브를 감지한다. (자동으로 감..

Writing 2025.02.27