dataset_distillation 6

[Paper Review] Dataset Condensation with Distribution Matching (DM)

This is a Korean review of "Dataset Condensation with Distribution Matching" presented at WACV 2023. TL;DRDD를 통해 합성된 이미지로 모델을 빠르게 학습할 수 있지만, 이미지 생성 과정은 복잡한 bi-level optimization과 second-order derivatives computation 때문에 계산 비용이 매우 큼.본 논문은 many sampled embedding spaces에서 합성 이미지와 원본 이미지의 feature distribution을 일치시키는 방식으로 이미지를 합성하는, 최초의 distribution matching 기반 dataset distillation 방법을 제안함. Introduc..

[Paper Review] Dataset Distillation by Matching Training Trajectories (MTT)

This is a Korean review of "Dataset Distillation by Matching Training Trajectories" presented at CVPR 2022. TL;DR합성데이터를 학습할 때, 모델의 파라미터가 실제 데이터로 학습했을 때의 파라미터 궤적과 유사한 경로를 따르도록 설계함.이를 위해, 실제 데이터로 사전 학습된 전문가 네트워크의 학습 궤적(trajectory)을 미리 계산하고 저장함. Introduction기존 연구는 주로 낮은 해상도의 데이터셋 (e.g., MNIST, CIFAR)에만 국한되고, 다음의 한계가 존재함.여러 반복을 unroll하는 과정에서 학습 불안정성 발생막대한 연산 및 메모리 자원이 요구실제 데이터의 한 학습 스텝을 합성 데이터의 한 스..

[Paper Review] Dataset condensation with gradient matching (DC)

This is a Korean review of "Dataset condensation with gradient matching" presented at ICLR 2021. TL;DRDataset Distillation을, 전체 학습 데이터와 소수의 합성 데이터에서 학습된 신경망 가중치의 gradient 간의 일치 문제(gradient matching problem)로 정식화함. Introduction대규모 데이터를 효과적으로 처리하는 전통적인 방법은 coreset construction이며, 이는 *클러스터링 기반의 접근법을 사용함. 또한, continual learning이나 active learning을 통해 대규모 데이터를 효율적으로 다루려는 연구도 활발히 진행되고 있음.이러한 방법들은 일반적으..

[Paper Review] Dataset Distillation (DD)

This is a Korean review of "Dataset Distillation" presented at arXiv 2018. TL;DR전체 학습 데이터의 지식을 소수의 합성 데이터로 압축하는 Dataset Distillation 방법을 최초로 제안 Intoduction본 논문은 고정된 모델에 대해 전체 훈련 데이터셋을 몇 장의 합성 이미지로 압축하는 Dataset Distillation이라는 새로운 과제를 제안함.일반적으로 합성 데이터는 실제 데이터와 분포가 달라 학습에 부적합하다고 여겨지지만, 본 연구는 소수의 synthetic data만으로도 이미지 분류 모델을 효과적으로 학습시킬 수 있음을 보여줌.이를 위해 *모델의 파라미터를 합성 이미지의 미분 가능한 함수로 표현하고, 가중치를 직접 최..

[Paper Review] Exploiting Inter-sample and Inter-feature Relations in Dataset Distillation

This is a Korean review of"Exploiting Inter-sample and Inter-feature Relations in Dataset Distillation"presented at CVPR 2024.TL;DR기존 dataset distillation 기법 중 하나인, distribution matching-based distillation은 두 가지 주요 문제를 가지고 있음.동일한 클래스 안에서의 dispersed feature distribution으로 인해 낮은 class discrimination를 가짐. Mean feature consistency에 대한 exclusive focus로 인해 부족한 precision과 comprehensiveness를 가짐.이를 해결하기 ..

[Paper Review] Efficient Dataset Distillation via Minimax Diffusion

This is a Korean review of"Efficient Dataset Distillation via Minimax Diffusion"presented at CVPR 2024.TL;DROriginal large-scale dataset을 대체할 수 있는 small dataset을 만드는 기법인 dataset distillation의 기존 방법들은 sample-wise iterative optimization 기법에 크게 의존함.따라서, images-per-class $($IPC$)$ setting 또는 image resolution이 커지게 되면, 과도한 시간과 자원이 요구됨.Generatvie diffusion 기법을 활용하며, 효과적인 small dataset의 핵심요소가 대표성$($repr..