jungin7612
diff --git a/‎_posts/2025-08-04-02.Information-Theory.md‎
Lines changed: 97 additions & 0 deletions b/‎_posts/2025-08-04-02.Information-Theory.md‎
Lines changed: 97 additions & 0 deletions
diff --git a/‎images/Example47.png‎
39 KB b/‎images/Example47.png‎
39 KB
@@ -745,6 +745,103 @@ $$
 
 ### 2.5.5 Stationary Markov Process
 
+**예제 47.** 초기 분포가 $P(A) = P(B) = P(C) = \frac{1}{3}$인 다음 1차 마르코프 과정을 생각해보자.
+
+<p align="center">
+<img src="../images/Example47.png" alt="1st order Markov transition" width="350px" />
+</p>
+각 전이 확률이 위와 같으면,
+
+$$
+\begin{aligned}
+P(X_1 = A) &= P(X_1 = B) = P(X_1 = C) = \frac{1}{3} \\
+P(X_2 = A) &= P(X_1 = A) \cdot P(X_2 = A|X_1 = A) \\
+&\quad + P(X_1 = C) \cdot P(X_2 = A|X_1 = C) = \frac{1}{3}
+\end{aligned}
+$$
+
+이며 같은 방식으로 $P(X_2 = B)$, $P(X_2 = C)$도 모두 $\frac{1}{3}$이 된다.  
+이를 $X_3, X_4, \dots$까지 확장해도 확률 분포가 변하지 않으며, 항상 $\frac{1}{3}$을 유지하게 된다.
+즉 이는 **정상(stationary)** 과정인 것이다.
+
+**예제 48.** 예제 47과 같은 마르코프 과정에서 초기 분포만 $P(X_1 = A) = 1$, $P(X_2 = A) = P(X_2 = B) = \frac{1}{2}$인 상황을 생각해보자. 이 경우 확률 분포가 시간에 따라 바뀌므로 더 이상 정상(stationary)이 아니다. 즉 **마르코프 과정이 항상 정상인 것은 아니며**, 정상이 되기 위해선 특정 조건을 만족해야 한다.
+
+**정리 49.** 유한 상태(finite state), 가역성(irreducible), 비주기성(aperiodic)을 만족하는 경우, 마르코프 과정은 정상 분포(stationary distribution)를 가질 수 있다.
+
+---
+
+**예제 50.**  $p_{X_i \mid X_{i-1}}(1\mid0) = p_{X_i \mid X_{i-1}}(0 \mid 1) = \alpha < \frac{1}{2}, p_{X_i \mid X_{i-1}}(0 \mid 0) = p_{X_i \mid X_{i-1}}(1 \mid 1) = 1 - \alpha$ 인 이항 확률 과정을 생각해보자. 이 때 전이 행렬은 다음과 같다.
+
+$$
+P = \begin{pmatrix}
+1 - \alpha & \alpha \\
+\alpha & 1 - \alpha
+\end{pmatrix}
+$$
+
+초기 분포를 $\pi_0 = [1/2, 1/2]$라고 하면, 모든 시점 $t$에 대해 $\pi_t = [1/2, 1/2]$로 유지된다.  
+즉, 정상 분포 $\pi^*$는 다음 조건을 만족한다.
+
+$$
+\pi^* = P \cdot \pi^*
+$$
+
+따라서 정상 분포는 전이 행렬 $P$의 고유값 1에 해당하는 고유벡터가 된다. (행렬 $P$의 고유값 $\lambda$는 $\det(P - \lambda I) = 0$의 해라는 것을 기억하자.)
+
+**예제 51.** 전이 행렬 $P$가 대칭(symmetric)일 경우, 균일 분포(uniform distribution)는 정상 분포가 됨을 보여라.
+
+풀이:
+$\pi^\star = \begin{bmatrix} 1/n, 1/n, \cdots, 1/n \end{bmatrix}^\top$라 하자. $\pi^\star$가 정상 분포이려면 $P \pi^\star = \pi^\star$을 만족해야 한다.
+
+$$
+[P\pi^\star]_i = \sum_{j=1}^n P_{ij} \cdot \pi^\star_j = \sum_{j=1}^n P_{ij} \cdot \frac{1}{n} = \frac{1}{n} \sum_{j=1}^n P_{ij}
+$$
+
+여기서 $P$가 대칭, 즉 $P_{ij} = P_{ji}$이므로
+
+$$
+[P\pi^\star]_i = \frac{1}{n} \sum_{j=1}^n P_{ji}
+$$
+
+전이 행렬에서 한 행의 합은 확률 분포이므로 항상 1이 되어 $[P\pi^\star]_i = 1/n$. 
+따라서 $P \pi^\star = \pi^\star$, $\pi^\star$는 정상 분포이다.
+
+---
+
+만약 다음이 존재한다면 우리는 $\pi_\infty$를 **극한 분포(limiting distribution)**라 한다.
+
+$$
+\pi_\infty = \lim_{t \to \infty} \pi_t
+$$
+
+
+**정리 52.** 극한 분포는 정상 분포여야 한다.
+
+풀이: $\pi_{t+1} = P \pi_t$ 의 양변에 극한을 취하여 쉽게 증명 가능하다.
+
+**예제 53. 이산 확산(Discrete Diffusion)**
+$X_0 \sim p_0$라 할 때, 다음과 같은 전이 행렬을 가진 1차 마르코프 과정을 생각해보자.
+
+$$
+P = 
+\begin{bmatrix}
+1 - \epsilon & \epsilon/(n-1) & \cdots & \epsilon/(n-1) \\
+\epsilon/(n-1) & 1 - \epsilon & \cdots & \epsilon/(n-1) \\
+\vdots & \vdots & \ddots & \vdots \\
+\epsilon/(n-1) & \epsilon/(n-1) & \cdots & 1 - \epsilon
+\end{bmatrix}
+$$
+
+극한 분포는 균일 분포 $\pi^\star = \begin{bmatrix} 1/n, 1/n, \cdots, 1/n \end{bmatrix}^\top$이며( $\because$ 정리 52, 예제 51), 충분히 큰 $N$에 대해 $\pi_N \approx \pi^\star$이라 할 수 있다.
+반대로, 우리가 어떤 시점 $t$에 대해 $X_{t+1}$에서 $X_t$를 복원하는 신경망 $f_\theta$를 학습할 수 있다고 하자:
+
+$$
+X_t \approx f_\theta(X_{t+1}, t)
+$$
+
+
+그렇다면 우리는 균일 분포로부터 $\tilde X_N$을 샘플링한 후, $f_\theta(\cdot, t)$ 를 재귀적으로 적용하여 $\tilde X_0$ 를 얻을 수 있다. 이 $\tilde X_0$는 $X_0 \sim p_0$와 유사하게 동작할 것으로 기대할 수 있으며, 이것이 **생성적 확산 모델(generative diffusion process)**의 핵심 아이디어이다.
+
 ## 2.6 Continuous Random Variables
 
 ### 2.6.1 Probability Density Function