본문 바로가기

AI/Vision

[Paper Review] CLIP :Learning Transferable Visual Models From Natural Language Supervision

Abstract

  • 기존 Vision - text
    미리 정해진 객체 카테고리를 예측하도록 훈련 됨.
    단점) visual concept을 지정하기 위해서는 추가적인 라벨 데이터가 필요하기 때문에 일반성, 사용성에 제한.
  • 고로, 이미지에 대한 원시 텍스트로부터 직접 학습하는 것이 훨씬 더 넓은 지도학습을 활용하는 대안이다.
  • 인터넷에서 수집한 4억개의 (이미지,텍스트) 쌍 데이터셋 구축.
  • SOTA image representation을 처음부터 학습하는 효율적/확장적 방법으로, 어떤 캡션이 어떤 이미지와 일치하는지 예측하는 단순한 사전 학습 과제를 수행.
  • 학습 후에는, 자연어를 이용하여 down-stream task에 zero-shot tranfer를 할 수 있다.
  • 30개 이상의 vision dataset에서 위 방식으로 다양한 작업을 수행.
  • 이 모델은 대부분의 방법에서 비약적으로 전이 가능하고, task별(데이터셋별) 별도의 훈련이 필요 없어, 종종 fully supervised model과도 견주어 볼 수 있다.
  • 예를 들어, 우리는 1.28백만 개의 훈련 예제를 사용하지 않고도 ImageNet에서 원본 ResNet-50의 정확도를 제로샷으로 맞출 수 있다.

Introduction and Motivating Work

  • NLP에서 GPT-3가 모든 task에 대해 doen-stream zero-shot 이 가능한 것 처럼 Vision에서도 그러한 모델을 만들고 싶음.
    즉, vision에서의 GPT(all-rounder)를 만들고 싶다!
  • 그러나, 여전히 Vision분야에서는 ImageNet과 같은 대량의 labeld dataset에서 모델을 사전학습하는 것이 표준 관행이다.

Related Works

  • Mori et al. (1999) : 이미지와 쌍을 이루는 텍스트 문서에서 명사와 형용사를 예측하기 위해 모델을 훈련시켜 콘텐츠 기반 이미지 검색을 개선하는 방법을 탐구
  • Quattoni et al. (2007) : 이미지와 관련된 캡션의 단어를 예측하도록 훈련된 분류기의 가중치 공간에서 매니폴드 학습을 통해 더 효율적인 이미지 표현을 학습할 수 있음을 입증
  • Srivastava & Salakhutdinov (2012) : 저수준 이미지 및 텍스트 태그 기능을 사용하여 다중 모드 딥 볼츠만 머신을 훈련시켜 깊은 표현 학습을 탐구
  • Joulin et al. (2016) : CNN을 사용하여 이미지 캡션의 단어를 예측하도록 훈련시켜 유용한 이미지 표현을 학습할 수 있음을 입증
    YFCC100M 데이터셋 (Thomee et al., 2016)의 이미지에 있는 제목, 설명, 해시태그 메타데이터를 단어 집합 다중 라벨 분류 작업으로 변환하고 AlexNet (Krizhevsky et al., 2012)을 예측하도록 사전 학습하여 전이 작업에서 ImageNet 기반 사전 학습과 유사한 성능을 발휘하는 표현을 학습
  • Li et al. (2017) : 개별 단어 외에도 구 n-gram을 예측하는 접근법을 확장하여 학습된 시각적 n-gram 사전을 기반으로 목표 클래스를 평가하고 가장 높은 점수를 예측하여 다른 이미지 분류 데이터셋에 제로샷 전이할 수 있는 능력을 입증

--

  • VirTex (Desai & Johnson, 2020), ICMLM (Bulent Sariyildiz et al., 2020), ConVIRT (Zhang et al., 2020) : 트랜스포머 기반 언어 모델링, 마스크 언어 모델링 및 대조적 목표를 사용하여 텍스트에서 이미지 표현을 학습할 수 있는 가능성을 입증

그러나, 여전히 자연어 supervise를 사용한 Image representation 학습은 드물다.

 

왜? 똑같은 벤치마크에서, 이러한 접근 방식이 다른 접근방식보다 성능이 낮게 나오기 때문.

(다른 모델들은 특정 task에 맞춰서 학습시키고 모델을 훈련한 방면, 위 접근 방식들은 downstream-zeroshot이 가능하도록 만들어진 모델이기 때문)

  • 이 연구 라인은 제한된 양의 감독된 "골드 라벨"에서 학습과 실질적으로 무한한 양의 원시 텍스트에서 학습 간의 현재 실용적인 중간 지점을 나타낸다.
  • 즉, 핵심은 Data Size!
    • 수백만~수십억 개 이미지에서 모델을 수년간 훈련한 Mahajan et al. (2018)과 Kolesnikov et al. (2019)
    • 수십만개 이미지에서 몇 일간 모델을 훈련한 VirTex, ICMLM, ConVIRT

 

즉. ImageNet으로 대표되는 Labeled Image Dataset으로 학습하는 기존의 Vision Model에 대한 한계를 인지하고, 해결하고자 했다!

  • 4억개의 (이미지, 텍스트) 쌍의 데이터셋을 인터넷으로부터 생성. 
  • From scatch하게 훈련된 ConVIRT의 단순화된 버전을 CLIP (Contrastive Language-Image Pre-training)이라고 부름. 
  • GPT 계열과 유사하게, CLIP가 사전 학습 중에 OCR, 지리적 위치 지정, 행동 인식 등 광범위한 작업을 수행하는 법을 학습한다는 것을 발견
  • LIP의 제로샷 전이 성능을 30개 이상의 기존 데이터셋에서 벤치마킹하여 이전의 작업 특화 감독 모델과 경쟁할 수 있음을 발견

Approach

NLS(Natural Language Supervision)

  • 기존 연구  
    • Zhang et al. (2020), Gomez et al. (2017), Joulin et al. (2016), Desai & Johnson (2020) 모두 (이미지, 텍스트) 쌍으로 시각적 표현을 학습하는 방법을 도입했지만, 각 비지도 학습, 자기 지도 학습, 약하게 지도 학습, 지도 학습으로 설명. 
    • 공통점 : 이미지의 특정 세부 사항이 아니라, 자연어 그 자체를 학습 신호로 인정하였다. 
  • 자연어 감독 방법의 강점 
    • 이미지 분류를 위한 Standard Crowd Sourcing Labeling에 비해 Natural Language Supervision을 확장하는 것이 훨씬 쉽다. 
      • 왜? Natural Language Supervision은 전통적인 기계학습 1:N "Gold-Label" 형식을 필요로 하지 않기 때문. 
        • 흔히 이미지에 label을 달 때에는, 다수결에 의해 결정된 "Gold-Label"이라는 특정 형식의 주석을 사용하는데, 자연어감독 방법을 택하면 그런 수고로운 일이 필요 없어짐. 
    • 단순히 표현을 학습하는 것이 아니라, 그 표현을 언어와 연결하여 유연한 Zero-shot Transfer를 가능하게 한다. 
      고로, 대부분의 비지도학습 / 자기지도 학습 접근보다 이점을 갖는다. 

Creating a Asufficiently LArge Dataset

 

  • 기존에 vision에서 사용하던 데이터는 대표적으로 3개. 
    1. MS-COCO(Lin et al., 2014) : 고품질 crowded labeled data지만, 약 10만장으로 적음. 
    2. Visual Genome(Krishna et al., 2017) : 고품질 crowded labeled data지만, 약 10만장으로 적음.   
    3. YFCC100M(Thomee et al., 2016) : 1억장으로 양적인 면에서는 충분하지만, 각 이미지의 메타데이터가 드물고, 품질이 균일하지 않음. 

  • 인터넷의 다양한 open source로부터 4억개의 (이미지, 텍스트) 쌍의 데이터셋 구축. 
    • 쿼리 : 이미지와 연관된 텍스트를 찾기 위해 사용된 키워드 혹은 문구. 
    • 텍스트에 50만개의 쿼리 중 하나를 포함하하는 (이미지, 텍스트) 쌍을 검색하는 과정을 거침. -> 넓은 범위의 시각적 개념 포함. 
    • 각 쿼리당 최대 2만개의 (이미지, 텍스트)쌍을 포함하도록 함. -> 클래스 균형 문제 
  • 총 Dataset은 GPT-2를 훈련하는데 사용된 WebText 데이터셋과 유사한 총 단어수를 가짐. 
  • 이렇게 만든 데이터를 WebImageText(WIT) 라고 부름. 

Selecting an Efficient Pre-Training Method

  • Pre-Training Method 결정 기준. 
    • Computer vision system은 매우 많은 양의 컴퓨팅을 필요로 하기 때문에, 최적의 방법을 선택할 필요가 있다. 
  • 초기 접근 방식 
    • 이미지 CNN과 텍스트 transformer를 처음부터 같이 훈련시켜, 이미지의 캡션을 예측하도록 함. 
    • 그림 2에서는 6300만 개의 매개변수를 가진 트랜스포머 언어 모델이 ResNet-50 이미지 인코더보다 두 배 많은 계산 자원을 사용
    • Transformer Language Model (파란색 선): 이 모델은 처리된 이미지 수가 증가할수록 정확도가 증가하지만, 다른 두 모델에 비해 학습 속도가 느립니다.
    • Bag of Words Prediction (주황색 선): 이 모델은 Transformer Language Model보다 더 효율적으로 학습하여, 같은 수의 이미지를 처리했을 때 더 높은 정확도를 보여줍니다.
    • Bag of Words Contrastive (CLIP, 초록색 선): 이 모델은 가장 높은 효율성을 보이며, 가장 빠르게 정확도가 증가합니다.
  • 그래프에서 파악할 수 있는 포인트  
    • 4배의 효율성: CLIP 모델이 Bag of Words Prediction 모델에 비해 4배 더 효율적입니다. 즉, 같은 정확도를 달성하는 데 필요한 이미지 수가 4배 적습니다.
    • 3배의 효율성: Bag of Words Prediction 모델이 Transformer Language Model에 비해 3배 더 효율적입니다.
    • 따라서, 확장이 어려움. 

  • 주황색과 파란선의 접근 방식의 유사점 = 이미지와 함께 제공되는 텍스트의 정확한 단어를 예측하려고 함.
    • 이미지와 함께 발생하는 다양한 설명, 댓글, 관련 텍스트 등 때문에 상당히 어려운 작업. 
  • 따라서, 동등한 예측 목표 < 대조적 예측 목표 를 설정하는 것이 더 나은 표현을 학습할 수 있다!
    • 대조적 목표 (Contrastive Objective)
        • 대조적 목표는 두 데이터 포인트(예: 이미지와 텍스트)가 서로 연관성이 있는지 없는지를 학습하는 방식입니다. 이 방식에서는 모델이 주어진 이미지와 그것에 관련된 텍스트 쌍을 다른 무작위 텍스트 쌍과 비교하여 학습합니다.
           예를 들어, 모델은 이미지와 관련된 올바른 캡션과 무작위로 선택된 다른 캡션을 비교하여, 올바른 캡션을 구분할 수 있도록 학습합니다. 이러한 방식은 이미지와 텍스트 간의 연관성을 더 잘 이해하고 표현할 수 있게 도와줍니다.
    • 동등한 예측 목표 (Equal Prediction Objective)
      • 동등한 예측 목표는 모델이 이미지와 관련된 텍스트의 정확한 단어를 예측하도록 학습하는 방식입니다. 이 방식에서는 모델이 이미지에 대한 특정 단어나 문구를 정확히 예측해야 합니다.
         예를 들어, 주어진 이미지에 대해 모델이 "고양이"라는 단어를 정확히 예측하도록 합니다. 이 방식은 이미지에 대한 텍스트의 세부적인 내용까지 정확히 예측해야 하기 때문에 어렵고, 다양한 설명, 댓글, 관련 텍스트들이 이미지와 함께 제공되기 때문에 예측 작업이 복잡해집니다

대조적 표현 학습 

N개의 (이미지, 텍스트) 쌍의 배치를 주어, CLIP은 NxN개의 가능한 (image, text) 페어 안에서 어떤 쌍이 실제로 관련이 있는지를 예측하도록 훈련된다. 

 

[참조된 연구]
1. N-쌍 손실 (Sohn, 2016): 다중 클래스 N-쌍 손실은 메트릭 학습에서 처음 도입됨.
2. 인포NCE 손실 (Oord et al., 2018): 대조적 표현 학습에서 인포NCE 손실을 사용하여 더 널리 알려짐.
3. 대조적 (텍스트, 이미지) 표현 학습 (Zhang et al., 2020): 최근 의료 영상 도메인에서도 이 방법이 채택됨.

 

CLIP의 세부사항 

  • 오버피팅 문제 감소: 데이터셋이 크기 때문에 모델이 과적합되지 않으며, 이를 통해 복잡한 기법을 사용할 필요가 줄어듭니다.
  • 초기화 없음: 처음부터 모델을 훈련함으로써, 사전 학습된 가중치를 사용하는 복잡성을 피합니다. from scratch 
  • 비선형 투영 사용하지 않음: 선형 투영만을 사용하여 모델의 단순화를 도모하며, 이는 효율성에 큰 차이가 없음을 발견했습니다.
  • 텍스트 변환 함수 제거: 많은 텍스트가 단일 문장으로 이루어져 있어 불필요한 텍스트 변환을 제거했습니다.
  • 간단한 이미지 변환 사용: 복잡한 이미지 변환 대신, 무작위 자르기를 사용하여 모델 훈련을 단순화했습니다. t_u -> t_v 
  • Temperature  Parameter τ 최적화: 훈련 중에 온도 매개변수를 최적화하여 하이퍼 매개변수 튜닝의 필요성을 없앴습니다.
온도 매개변수란?

온도 매개변수(Temperature Parameter)는 소프트맥스(Softmax) 함수에서 사용되는 매개변수로, 모델의 출력 분포의 스케일을 조정하는 역할을 한다. 이를 통해 예측의 확실성을 조절할 수 있다.
ex) 온도 매개변수가 1보다 큰 경우 (τ>1):입력 값이 τ로 나눠지므로, 출력 확률 분포가 더 평평해진다. 즉, 모델의 예측이 덜 확신적이게 된다.

ex) 온도 매개변수가 1보다 작은 경우 (τ<1):입력 값이 τ로 나눠지므로, 출력 확률 분포가 더 날카로워진다. 즉, 모델의 예측이 더 확신적이게 된다.

 


Choosing and Scaling a Model

이미지 인코더 

  1. ResNet-50 
    • ResNet-D 개선 (He et al., 2019) 및 안티앨리어싱 렉트-2 블러 풀링 (Zhang, 2019)을 적용  -> 뭔지 모름. 
    • Global mean pooling layer -> Attention Pooling mechanism 으로 교체
      • Attention Pooling은 Transformer style 다중 헤드 QKV attention single layer로 구현. 
      • Query는 이미지의 Global mean pooling된 표현에 조건화 
  2. ViT 
    • Transformer 전에 patch 및 position embedding을 결합한 후, 추가 레이어 정규화를 더하는 약간의 수정만 진행. 

텍스트 인코더 

  1. Transformer 
    • 6300만개 parameters
    • 12-layers, 512 wide model (피쳐 임베딩 사이즈) 
    • 8 attention heads 
    • 49,152 어휘 크기의 소문자 바이트 페어 인코딩(BPE) 표현 사용.
    • 최대 시퀀스 길이: 76으로 제한.
    • 텍스트 시퀀스는 [SOS][EOS] 토큰으로 묶여 있음. 
    • 트랜스포머의 최상위 레이어에서 [EOS] 토큰의 활성화된 피처 표현을 다중 모달 임베딩 공간으로 선형 투영
    • Masked self-attetion을 사용하여 사전 학습된 언어 모델로 초기화하거나 언어 모델링을 보조 목표로 추가할 수 있는 능력을 유지

모델 확장

  • ResNet 이미지 인코더:
    • Tan & Le (2019)의 접근 방식을 채택하여 폭, 깊이, 해상도 모두에 추가 컴퓨팅을 균등하게 할당
  • 텍스트 인코더:
    • ResNet의 폭 증가에 비례하여 모델의 폭만 확장하고, 깊이는 확장하지 않음.
    • 이는 CLIP의 성능이 텍스트 인코더의 용량에 덜 민감하다는 발견을 반영.


Training

모델 아키텍처

ResNet

  • 모델 종류: ResNet-50, ResNet-101
  • 확장된 모델: EfficientNet 스타일 모델 확장을 따르며, ResNet-50의 약 4배, 16배, 64배의 컴퓨팅을 사용하는 추가 모델들인 RN50x4, RN50x16, RN50x64

비전 트랜스포머 (ViT)

  • 모델 종류: ViT-B/32, ViT-B/16, ViT-L/14

훈련 설정

  • 에포크 수: 모든 모델은 32 epoch 동안 훈련됨
  • 옵티마이저: Adam optimizer
  • 가중치 감쇠 정규화: gain이나 bias를 제외한 모든 가중치에 적용
  • 학습률 스케줄링: Cosine Scheduling 

하이퍼파라미터 설정

  • 기초 모델: 1 epoch 동안 훈련된 ResNet-50 모델의 하이퍼파라미터를 greedy search, random search 및 수동 조정을 통해 설정
  • 큰 모델: computing limit으로 인해 하이퍼파라미터를 경험적으로 조정
  • 온도 매개변수 τ: 0.07로 초기화되고, logit을 100 이하로 제한하여 훈련 불안정을 방지

미니배치 크기 및 Precision

  • 미니배치 크기: 32,768
  • 혼합 정밀도: 훈련을 가속화하고 메모리를 절약하기 위해 사용
  • 추가 메모리 절약 방법:
    • Gradient checkpointing
    • Half-precision Adam statistics
    • Half-precision 확률적으로 반올림된 텍스트 인코더 가중치 사용
    • 임베딩 유사성 계산 분산 처리

훈련 시간 및 GPU 사용

  • 가장 큰 ResNet 모델 (RN50x64): 592 V100 GPU에서 18일 소요
  • 가장 큰 비전 트랜스포머 (ViT-L/14): 256 V100 GPU에서 12일 소요
  • ViT-L/14@336px: 336픽셀의 더 높은 해상도로 추가 1 에포크 동안 사전 훈련

최종 모델

  • "CLIP" 결과: 이 논문에서 보고된 모든 "CLIP" 결과는 ViT-L/14@336px 모델을 사용
  • 성능: ViT-L/14@336px 모델이 가장 잘 수행됨

Experiments

Zero-Shot Transfer

MOTIVATION

  • 제로샷 학습은 컴퓨터 비전에서 모델이 훈련 시 보지 못한 객체 카테고리를 분류하는 능력을 의미한다.
  • CLIP 모델은 이 개념을 더 넓게 사용하여 보지 못한 데이터셋으로의 일반화를 평가한다.

제로샷 전이와 데이터셋

  • 기존 데이터셋의 한계: 많은 컴퓨터 비전 데이터셋은 일반 이미지 분류 방법 개발을 위한 벤치마크로 만들어짐.
    따라서 특정 작업 성능을 측정하기 위해 설계된 것이 아님!
    • 예시:
      • SVHN 데이터셋: 거리 번호 전사 작업을 측정.
  • CLIP의 목표: 이러한 데이터셋에서 제로샷 전이는 작업 일반화보다는 분포 이동과 도메인 일반화에 대한 CLIP의 견고성을 평가하는 것입니다.

기존 연구와 비교

  • Visual N-Grams (Li et al., 2017): 기존 이미지 분류 데이터셋으로의 제로샷 전이를 처음 연구한 사례.
    • 방법: 1-그램에서 5-그램에 걸친 시각적 n-그램의 사전 매개변수를 학습하고, 주어진 이미지에 대한 텍스트 n-그램의 확률을 최대화하여 제로샷 전이를 수행.

NLP에서의 제로샷 학습

  • NLP의 영감
    • Liu et al. (2018): 언어 모델이 훈련되었을 때 이름을 언어 간에 일관되게 음역하는 "예상치 못한 부작용"으로 작업 학습을 확인.
    • GPT-1 (Radford et al., 2018): 사전 학습에 중점을 두고 감독된 미세 조정을 개선하기 위한 전이 학습 방법을 연구.
    • GPT-2 (Radford et al., 2019): 제로샷 전이를 통해 언어 모델의 작업 학습 능력을 연구하는 데 중점을 둠.

Using CLIP for Zero-Shot Transfer

CLIP 모델은 이미지와 텍스트 조각이 쌍을 이루는지를 예측하는 방식으로 pre-train 된다. 

 

제로샷 분류 수행 방법

  1. 텍스트 쌍 생성:
    • 각 데이터셋에 대해, 모든 클래스 이름을 잠재적 텍스트 쌍의 집합으로 사용. (모든 가능한 경우의 수 만듦)
    • 예를 들어, CIFAR-10 데이터셋이 있다면, 클래스 이름들(예: "고양이", "개", "자동차" 등)을 텍스트 쌍으로 사용.
  2. 피처 임베딩 계산:
    • 이미지 인코더를 사용하여 이미지의 피처 임베딩을 계산.
    • 텍스트 인코더를 사용하여 가능한 텍스트 집합의 피처 임베딩을 계산.
  3. 코사인 유사성 계산:
    • 이미지 임베딩과 텍스트 임베딩 간의 코사인 유사성을 계산.
    • 이 유사성을 온도 매개변수 τ로 스케일링
  4. 확률 분포로 정규화:
    • 스케일링된 유사성을 소프트맥스를 통해 확률 분포로 정규화.
  5. 예측 레이어 해석:
    • 이 예측 레이어는 L2 정규화된 입력, L2 정규화된 가중치, 편향 없는 다항 로지스틱 회귀 분류기와 온도 스케일링을 사용하는 것으로 해석됨.

Initial Comparison to Visual N-GRAMS

  • Visual N-Grams (Li et al., 2017)과 비교하여 CLIP 모델이 크게 성능이 향상됨을 보임. 
  • ImageNet에서 CLIP은 Visual N-Grams의 11.5%에서 76.2%로 정확도를 향상시켰으며, 이는 기존 ResNet-50과 비교해도 뛰어난 성능이다. 
  • CLIP은 ImageNet, aYahoo, SUN 데이터셋 모두에서 Visual N-Grams보다 우수한 성능을 보임. 

Prompt Engineering and Ensenbling

초록색 : Zero-shot CLIP이 완전 지도 학습된 ResNet-50 분류기보다 더 좋은 성능을 보이는 데이터셋

파란색 : Zero-shot CLIP이 완전 지도 학습된 ResNet-50 분류기보다 성능이 떨어지는 데이터셋

 

절반 이상의 데이터셋에서 더 우수한 성능을 보임 


Analysis of Zero-Shot CLIP Performance

 

 

 

 

 

 

 

 

 

 


Representation Learning

 

  • 표현 학습의 목표: 모델이 다양한 입력 데이터를 효과적으로 인코딩하여 다양한 작업에서 잘 작동할 수 있는 일반화된 표현을 학습하는 것.
  • CLIP의 접근 방식: CLIP 모델은 이미지와 텍스트 간의 관계를 학습하여 고품질의 멀티모달 표현을 생성한다. 
  • 학습된 표현의 유용성: CLIP에서 학습된 표현은 다양한 다운스트림 작업(예: 이미지 분류, 객체 인식 등)에서 효과적으로 사용될 수 있다.
  • 평가 방법: CLIP 모델이 학습한 표현의 질을 평가하기 위해 여러 데이터셋에서 제로샷 학습 성능을 측정한다.

Robustness to Natural Distribution Shift

  • 자연적 분포 이동: 현실 세계에서 모델이 훈련된 데이터와는 다른 분포의 데이터에 직면할 때, 이러한 분포 이동이 발생하는데, 이는 모델의 성능을 저하시킬 수 있음.
  • CLIP의 견고성: CLIP 모델은 자연적 분포 이동에 대해 높은 견고성을 보이는 특성을 가짐. 이는 다양한 데이터셋과 상황에서 일관된 성능을 유지할 수 있음.
  • 평가 방법: 다양한 도메인과 분포의 데이터셋을 사용하여 CLIP의 성능을 평가. 예를 들어, 다른 시각적 스타일, 조명 조건, 카메라 각도 등 다양한 조건에서 모델의 성능을 테스트함.
  • 결과: CLIP 모델은 분포 이동에도 불구하고 높은 성능을 유지하며, 이는 모델이 훈련 데이터의 특정 분포에 과적합되지 않고 일반화 가능하다는 것을 보여줌.
  • 비교 평가: CLIP의 성능을 기존 모델들과 비교하여 자연적 분포 이동에 대한 견고성을 측정. CLIP은 대부분의 기존 모델들보다 더 높은 견고성을 나타냄.

Comparison to Huamn Performance

4.1 CLIP과 인간 성능 비교의 동기

  • 모델 성능을 이해하고 평가하는 데 있어 인간의 성능을 기준으로 삼는 것은 유용하다.
  • 제로샷 전이 설정에서 CLIP의 성능이 얼마나 뛰어난지를 평가하기 위해, 다양한 데이터셋에서 CLIP의 성능을 인간 성능과 비교함.

4.2 비교 방법

  • CLIP 모델과 인간 성능을 비교하기 위해 여러 데이터셋을 사용.
  • 데이터셋은 인간이 직관적으로 이해하고 분류할 수 있는 이미지들로 구성 됨.
  • 각 데이터셋에서 CLIP 모델의 예측 결과와 인간의 예측 결과를 비교하여 정확도를 평가.

4.3 주요 결과

  • CLIP 모델은 여러 데이터셋에서 인간 성능에 근접하거나 이를 초과하는 성능을 보임.
  • ImageNet: CLIP 모델이 ImageNet 데이터셋에서 76.2%의 정확도를 기록했 - > 많은 인간 평가자보다 높은 성능.
  • aYahooSUN 데이터셋: CLIP 모델이 각각 98.4%와 58.5%의 정확도를 기록하여 인간 성능을 뛰어넘음.

4.4 결과의 해석

  • CLIP의 높은 성능은 모델이 광범위한 시각적 개념을 학습하고 이를 다양한 도메인에 일반화할 수 있는 능력을 가지고 있음을 나타냄.
  • 인간 성능을 기준으로 했을 때, CLIP은 특히 제로샷 설정에서 매우 효과적인 모델임을 보여줌.
  • CLIP 모델이 훈련된 대규모 데이터셋과 강력한 아키텍처가 이러한 높은 성능의 주요 원인으로 분석된다.

4.5 한계와 미래 연구 방향

  • CLIP 모델의 성능이 모든 상황에서 항상 인간을 능가하는 것은 아니다.
  • 특정 복잡한 시나리오에서는 여전히 인간이 더 높은 정확도를 보일 수 있다.
  • 미래 연구는 CLIP 모델의 성능을 더 향상시키기 위해 다양한 데이터셋과 더 복잡한 시나리오에서의 평가를 포함할 것이다.


Data Overlap Analysis

: CLIP 모델의 훈련 데이터와 평가 데이터셋 간의 중복을 분석하여 모델 성능에 미치는 영향을 평가

5.1 동기와 목적

  • 모델의 성능 평가에서 공정성을 확보하기 위해 훈련 데이터와 평가 데이터셋 간의 중복 여부를 확인하는 것이 중요.
  • 데이터 중복이 모델의 성능에 미치는 영향을 분석하여, 모델이 실제로 새로운 데이터를 얼마나 잘 일반화하는지를 평가하고자 합니다.

5.2 분석 방법

  • 이미지 해시(hash) 기법과 유사도 검색을 통해 훈련 데이터와 평가 데이터셋 간의 중복 이미지를 식별합니다.

** 그레이스케일 이미지는 밝기 정보만을 사용하여 표현된 흑백 이미지

5.3 주요 결과

  • 훈련 데이터와 평가 데이터셋 간에 약간의 중복이 발견됨.
  • -> 중복된 이미지를 제거한 후에도 CLIP 모델의 성능은 여전히 높은 수준을 유지함.
  • 이는 CLIP 모델이 특정 이미지에 과적합되지 않고, 일반적인 시각적 개념을 잘 학습했음을 시사한다.

5.4 중복 이미지의 영향

  • 중복 이미지를 포함한 경우와 제외한 경우의 성능 차이는 미미함.
  • 이는 CLIP 모델이 데이터 중복에 크게 의존하지 않음을 나타내며, 모델의 일반화 능력이 뛰어남을 보여줌.

5.5 결론 및 시사점

  • 데이터 중복 분석 결과, CLIP 모델의 높은 성능이 단순히 훈련 데이터와의 중복 때문이 아님을 확인.
  • 모델이 다양한 시각적 개념을 효과적으로 학습하여 새로운 데이터에 잘 일반화할 수 있음을 시사.
  • 이러한 결과는 CLIP 모델의 신뢰성을 높이며, 실제 응용에서의 활용 가능성을 더욱 뒷받침함.

 

 

 

 

 

'AI > Vision' 카테고리의 다른 글

DANN : Domain Adversarial Training Neural Network  (0) 2025.01.06