변분 추론(variational inference)
변분 추론(variational inference)은 복잡한 확률 분포를 근사화하는 기법 중 하나입니다. 주로 베이지안 통계에서 사용되며, 매개변수의 사후 분포를 직접 계산하는 것이 어려울 때, 더 간단한 형태로 근사화하여 추론을 용이하게 하는 데 사용됩니다.
1. 변분 추론과 관련된 용어:
- 변분 매개변수 (Variational Parameters, \( \phi \)): 근사적 분포를 정의하는 데 사용되는 매개변수입니다. 변분 추론에서는 이 매개변수들을 최적화하여 원래의 복잡한 사후 분포를 가장 잘 근사하는 분포를 찾습니다.
- 변분 분포 (Variational Distribution): 원래의 사후 분포를 근사하기 위해 선택한 간단한 확률 분포입니다. 이 분포는 일반적으로 실제 사후 분포보다 계산하기 쉬운 형태를 가지며, 변분 매개변수에 의해 정의됩니다.
2. 싸이 (\( \psi \))의 등장:
- \( \psi \)는 여기서 변분 추론을 실시할 때 사용하는 신경망 모델의 가중치를 나타냅니다. 신경망은 변분 매개변수를 사용하여 근사적 분포를 학습하는 복잡한 함수를 모델링하는 데 사용되며, \( \psi \)는 그러한 모델의 가중치나 파라미터를 의미합니다.
변분 추론은 Kullback-Leibler divergence를 최소화하는 방식으로, 변분 분포가 실제 사후 분포와 가능한 비슷해지도록 변분 매개변수를 조정합니다. 이 과정에서 신경망은 변분 분포와 실제 데이터 간의 차이를 줄이기 위해 가중치를 조정합니다.
결과적으로, 변분 추론은 복잡한 확률 모델에서 매개변수의 사후 분포를 효율적으로 추정할 수 있도록 해줍니다. 변분 매개변수 \( \phi \)와 신경망 모델의 가중치 \( \psi \)는 이러한 근사 과정을 수행하는 데 핵심적인 역할을 합니다.
+Kullback-Leibler divergence 란?
Kullback-Leibler divergence, 줄여서 KL divergence,는 두 확률 분포 간의 차이를 측정하는 데 사용되는 방법입니다. 원래 확률 분포 \( P \)와 이를 근사하는 또 다른 확률 분포 \( Q \)가 있을 때, KL divergence는 \( Q \)가 \( P \)를 얼마나 잘 근사하는지를 수치적으로 나타냅니다. 이 값은 \( P \)를 진실된 분포 또는 참조 분포로, \( Q \)를 근사적 또는 가정된 분포로 보고 계산합니다.
KL divergence의 정의는 다음과 같습니다:
\[ D_{KL}(P \parallel Q) = \sum_{x \in \mathcal{X}} P(x) \log\left(\frac{P(x)}{Q(x)}\right) \]
또는 연속 변수의 경우:
\[ D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log\left(\frac{p(x)}{q(x)}\right) dx \]
여기서 \( P(x) \)와 \( Q(x) \)는 각각 분포 \( P \)와 \( Q \)에 의해 할당된 확률이며, \( x \)는 확률 변수입니다.
KL divergence는 다음과 같은 특성을 가지고 있습니다:
- 비대칭성: \( D_{KL}(P \parallel Q) \)는 \( D_{KL}(Q \parallel P) \)와 일반적으로 다릅니다. 이는 \( P \)에서 \( Q \)로의 '거리'와 \( Q \)에서 \( P \)로의 '거리'가 같지 않다는 것을 의미합니다.
- 비음성: KL divergence는 항상 0 또는 양수입니다. 만약 \( P \)와 \( Q \)가 동일한 경우에만 0이 됩니다.
- 참조 분포에 대한 정보량 측정: \( P \)에 대한 정보량을 \( Q \)를 사용하여 얼마나 잘 표현하는지 측정합니다. \( Q \)가 \( P \)의 특성을 잘 포착할수록 KL divergence는 작아집니다.
변분 추론에서 KL divergence는 근사적 분포 \( Q \)를 최적화하여 원래 분포 \( P \)에 가능한 한 가깝게 만들기 위한 목표 함수로 사용됩니다. 변분 분포를 통해 실제 분포를 근사할 때 발생하는 정보 손실의 양을 최소화하는 것이 핵심 목표입니다.