[Paper Review] Learning Transferable Visual Models From Natural Language Supervision
Paper : https://arxiv.org/pdf/2103.00020Github : https://github.com/OpenAI/CLIP CLIP은 OpenAI에서 개발한 모델로, 기존 컴퓨터 비전 시스템의 한계를 극복하기 위해, 고정된 객체 카테고리 대신 원시 텍스트로부터 직접 학습하는 접근법을 제시했다. 4억 개의 (이미지, 텍스트) 쌍으로 구성된 인터넷 데이터셋을 사용해 이미지-텍스트 매칭을 통해 사전 훈련하며 자연어를 통해 학습된 시각적 개념을 참조하고 Zero-shot Transfer가 가능하게 한다. 30개 이상의 다양한 비전 데이터셋에서 성능 벤치마크를 수행했으며 뛰어난 성능을 보였다. CLIP 모델 자체는 매우 간결한 구조를 가지고 있지만, 논문(48페이지로 일반적인 논문보다 2~3배..
2025.03.12