no image
[Paper Review] Learning Transferable Visual Models From Natural Language Supervision
Paper : https://arxiv.org/pdf/2103.00020Github : https://github.com/OpenAI/CLIP CLIP은 OpenAI에서 개발한 모델로, 기존 컴퓨터 비전 시스템의 한계를 극복하기 위해, 고정된 객체 카테고리 대신 원시 텍스트로부터 직접 학습하는 접근법을 제시했다. 4억 개의 (이미지, 텍스트) 쌍으로 구성된 인터넷 데이터셋을 사용해 이미지-텍스트 매칭을 통해 사전 훈련하며 자연어를 통해 학습된 시각적 개념을 참조하고 Zero-shot Transfer가 가능하게 한다. 30개 이상의 다양한 비전 데이터셋에서 성능 벤치마크를 수행했으며 뛰어난 성능을 보였다. CLIP 모델 자체는 매우 간결한 구조를 가지고 있지만, 논문(48페이지로 일반적인 논문보다 2~3배..
2025.03.12
no image
[Paper Review] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Paper : https://arxiv.org/pdf/2010.11929Github : https://github.com/google-research/vision_transformer 2021년에 발표된 논문이지만 ViT는 현재까지도 널리 활용되는 필수적인 논문이기에 다시 한번 읽고 정리해보고자 한다. 이 논문은 자연어 처리 분야에서 우수한 성능을 보인 Transformer 구조를 컴퓨터 비전 분야에 적용하는 방법을 제시했으며, 이미지를 패치 단위로 분할하여 각 패치를 하나의 단어처럼 취급하는 방식을 도입했다. 대규모 데이터셋으로 사전 학습한 뒤 중소형 데이터셋으로 Fine-tuning할 경우, Convolution Network보다 적은 컴퓨팅 자원으로도 최고 수준의 성능을 달성할 수 있었다.ViT는 ..
2025.01.24
no image
[Paper Review] Attention Is All You Need
Paper : https://arxiv.org/pdf/1706.03762Github : https://github.com/tensorflow/tensor2tensor 2017년에 구글 브레인에서 발표한 논문이며 해당 논문에서 Transformer 구조를 처음 소개한다. 기존의 RNN 기반 모델들은 순차적 처리로 인한 병렬화의 한계와 장기의존성(long-term dependencies) 문제를 완전히 해결하지 못했으며, CNN과 RNN을 혼합한 복잡한 구조는 학습에 어려움이 있었다. 이러한 한계를 극복하기 위해 논문에서는 RNN과 CNN 없이 순수하게 Attention 방법만으로 구현된 Transformer 구조를 제안했다. 해당 구조는 WMT 2014 영어-독일어 번역 태스크에서 BLEU 점수 28.4,..
2025.01.13
no image
[Paper Review] Masked Autoencoders Are Scalable Vision Learners
Paper : https://arxiv.org/pdf/2111.06377 Github : https://github.com/facebookresearch/mae Masked Autoencoders Are Scalable Vision Learners는 컴퓨터 비전 분야에서 자기지도 학습(Self-supervised Learning)을 위한 혁신적인 접근 방식을 제시한 논문이다. 요즘 모델들은 수많은 데이터들로 학습을 하고 있으며 Computer Vision에서는 Supervised Learning이 대부분인 반면에 NLP 분야에서는 Self-supervised Learning이 큰 성공은 이뤘다. 문장에서 단어 몇개를 가린 후 원래의 문장(가려진 단어)을 예측하는 식으로 학습이 되고 있는데 이러한 방법을 ..
2024.11.26
no image
[Paper Review] InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data Pruning
Paper : https://arxiv.org/abs/2303.04947 InfoBatch: Lossless Training Speed Up by Unbiased Dynamic Data PruningData pruning aims to obtain lossless performances with less overall cost. A common approach is to filter out samples that make less contribution to the training. This could lead to gradient expectation bias compared to the original data. To solve this probarxiv.orgGitHub : https://githu..
2024.09.03
no image
[Paper Review] SORT: Simple Online and Realtime Tracking
Paper : https://arxiv.org/abs/1602.00763 Simple Online and Realtime TrackingThis paper explores a pragmatic approach to multiple object tracking where the main focus is to associate objects efficiently for online and realtime applications. To this end, detection quality is identified as a key factor influencing tracking performancarxiv.org Github : https://github.com/abewley/sort GitHub - abewle..
2024.06.24
no image
[Code] VAE(Variational Auto-Encoder) 구현
PyTorch를 이용해 변분 오토인코더(Variational Autoencoder, VAE)를 구현하는 방법에 대해 이야기해보려 합니다. VAE는 이미지 같은 복잡한 데이터를 학습하고 새로운 데이터를 생성할 수 있는 딥러닝 모델 중 하나입니다. 이 포스트에서는, 간단한 MNIST 데이터셋을 사용하여 VAE 모델을 어떻게 구축하고 학습시킬 수 있는지 살펴봅니다. 이미지 저장 및 전체 소스코드는 아래 Github에 업로드 해놓았습니다. https://github.com/dev-jinwoohong/vae-pytorch GitHub - dev-jinwoohong/vae-pytorch Contribute to dev-jinwoohong/vae-pytorch development by creating an acco..
2024.03.28
no image
[Stable Diffusion] 상황 별 Negative prompt
Stable Diffusion 모델에서 좋은 Negative prompts를 사용하면 이상한 이미지가 생성되는 것을 막을 수 있다.요즘 모델들은 negative prompt 없이도 좋은 이미지를 생성하지만 더욱 더 정교한 이미지를 위해 negative prompt가 필요한 경우가 있다. Stable Diffusion은 text-to-image 모델이며 텍스트를 기반으로 이미지를 생성하는 모델이다. Stable Diffusion을 사용하여 이미지를 만들려면 Negative prompts를 포함한 특정 설정을 이해해야 한다. 이 글에서는 Stable Diffusion에서 상황 별로 추천하는 Negative prompts와 지정된 Prompts 설정이 이미지에 어떤 영향을 미치는 지  예시로 보여준다. 해당 ..
2024.01.09
no image
Diffusion Model vs GANs
해당 페이지는 "GANs vs Diffusion Models - Generative AI Comparison"이라는 제목의 글로, 인공 지능 분야에서 생성적 모델로써 GANs(Generative Adversarial Networks)과 Diffusion Models의 차이점을 비교하고 있다. 글에서는 두 모델의 개념, 특징, 장단점, 그리고 각각의 모델이 어떻게 데이터를 생성하는지에 대해 설명한다. GANs은 두 개의 신경망(Generator와 Discriminator)을 사용하는 반면, Diffusion Models은 노이즈에서 시작하여 점진적으로 데이터를 생성한다. 두 모델 모두 다양한 응용 분야에서 활용되고 있으며, 각각의 모델이 가지는 고유한 장점과 한계점이 있다. GANs vs Diffusion..
2023.12.28