Generative Models (pixel rnn/cnn, VAE, GAN)

Generative 모델의 큰 분류

Generative models
Explicit density			Implicit density
Tractable density	Approximate density		Markov chain	Direct
Fully Visible Belief Nets - NADE -MADE Pixel RNN/CNN change of variables models (nonlinear ICA)	Vriational	Markov chain	GSN	GAN
	Variational Autoencoder (VAE)	Boltzmann Machine

Genrative model's GOAL : 비지도 학습의 일종으로, 동일한 분포에서 새로운 샘플들을 생성해 내는 것.

Explicit density : 데이터의 분포에 대한 정보 필요. p(x)

- Tractable density : 분포를 명시적으로 정의.

- Approximate density : 분포를 추정

Implicit density : 데이터의 분포를 측정할 필요 없음.

Fully Visible beilief Network

이미지 데이터 x가 있다고 할 때, x에 대한 확률(likelihood)인 p(x)를 모델링함.

chain-rule을 사용해서 1차원 분포들간의 곱 형태로 표현

Pixel RNN

시작점은 좌측 상단 / 우측 하단 에서 화살표 방향으로 진행. (양방향 bidirectional RNN model로도 사용 가능하다.)

대각선 모양으로 1단계씩 t step 증가.

그림의 그리드의 노드가 픽셀이라고 보면 됨.

즉, 이전 픽셀의 정보를 사용하여 생성하는 RNN(LSTM) 구조.

이 그림처럼 정사각형에서 5개의 픽셀이 masking 되어 있는 경우, 동그라미 쳐진 픽셀은 그 이전 정보들 (masking 되지 않은 픽셀들)을 사용하여 데이터를 생성하게 된다.

하지만, Pixel RNN은 순차적인 방식이기에 매우 느림.

새로운 이미지를 생성하기 위해 여러번의 feed forward를 거쳐야 함.

이 문제를 해결하기 위해서 Pixel CNN 등장.

Pixel CNN

마찬가지로 코너 픽셀에서부터 시작. 픽셀들간의 dependency를 CNN으로 modeling 함.

아래 그림에서, 회색은 이미 생성된 픽셀.

새로운 픽셀을 생성할 때, 이전 정보 모두를 사용하는 것이 아니라, 특정 영역만을 사용해서 다른 픽셀 값을 생성.

Training 단계는 이전보다 빨라졌으나, generation 단계에서는 여전히 코너에서부터 sequential하게 진행되기 때문에 느림.

VAE (Variational Autoencoder)

Intractable density function : 직접 계산이 불가능한 확률 모델을 정의. -> latent variable z 를 사용.

Integral 을 가지고 있어, 직접 최적화 시킬 수 없다.

-> lower bound를 최저화 시키자!

Autoencoder(AE)에 대한 background

Autoencoder : 레이블되지 않은 데이터(x)로부터 low-dimensional feature representation(z)을 학습시키는 방법.
(원래 데이터 생성이 목적이 아니었음)
x를 z로 변환하는 mapping function의 역할을 했다. 즉, z가 x의 중요한 요소들이 담겨있는 feature들을 학습시키길 원함.
일반적으로 z는 x보다 작기 때문에, dimension reduction의 효과도 기대할 수 있다.

원본을 다시 복원하는데 사용될 수 있는 feature들을 학습시키는 방식을 취한다.

Encoder는 pow-demsional feature들을 생성하기 위함이고, Decoder는 input data를 복원하기 위함이다.
(인코더와 디코더 모두 CNN)

마지막에 L2 Error function을 minimize 시켜, 그 둘이 최대
한 비슷하도록 만든다.

이 과정을 반복하여, input data의 주된 특징을 잘 추출할 수 있도록 한다.