Merge branch 'master' into feature/6.4

jungin7612 · web-flow · commit e8da8eceae1a · 2025-08-11T16:32:51.000+09:00
diff --git a/_posts/2025-08-04-02.Information-Theory.md b/_posts/2025-08-04-02.Information-Theory.md
@@ -789,6 +789,95 @@ i.i.d. ←────────────|───────────
 
 ### 2.5.2 1st Order Markov Process
 
+> **1차 마르코프 과정이란?**
+> 확률 과정 $X$ = $\{X_1, X_2, \dots, X_n\}$이 있다고 할 때,
+> $P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})$를 만족하는 과정을 1차 마르코프 과정이라고 한다.
+
+$\therefore$ 현재 상태 $X_i$는 직전 상태 $X_{i-1}$에만 의존하고, 그 이전 상태들과는 무관하다.
+
+> 모든 가능한 sequence tuple들의 결합 확률 분포를 $P_{X^n}(x^n) = P_{X_1, \cdots, X_n}(x_1, \dots, x_n)$라고 할 때, 1차 마르코프 과정은 다음을 만족한다.
+>
+> $>P_{X^n}(x^n) = \prod_{i=1}^n P_{X_i \mid X_{i-1}}(x_i \mid x_{i-1})$
+
+$$
+P(X_1, X_2, \dots, X_n) = P(X_1) \times P(X_2 \mid X_1) \times \cdots \times P(X_n \mid X_{n-1})
+$$
+
+1차 마르코프 과정이므로,
+
+$$
+P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})
+$$
+
+위 식을 바꾸어 쓰면,
+
+$$
+P(X_1, X_2, \dots, X_n) = P(X_1) \prod_{i=2}^n P(X_i \mid X_{i-1})
+$$
+
+상태 공간이 $\{1, \dots, n\}$이고 전이 확률이 동일하다고 가정하면, 전이 행렬 $P$를 정의할 수 있다.
+
+$$
+P_{u,v} = \Pr[X_i = u \mid X_{i-1} = v]
+$$
+
+그리고 $t$시점 상태 분포 벡터를
+
+$$
+\pi_t = \begin{bmatrix}
+\Pr[X_t = 1] \\
+\Pr[X_t = 2] \\
+\vdots \\
+\Pr[X_t = n]
+\end{bmatrix}
+$$
+
+라고 하면, 각 상태 u에 대해 다음 식이 성립한다.
+
+$$
+\Pr[X_t = u] = \sum_{v=1}^n \Pr[X_t = u \mid X_{t-1} = v] \Pr[X_{t-1} = v] = \sum_{v=1}^n P_{u,v} \pi_{t-1,v}
+$$
+
+이를 벡터 형태로 변환하면
+
+$$
+\pi_t = P \times \pi_{t-1}
+$$
+
+---
+
+> **Exercise 43.**
+> 이진확률과정 $X$를 고려해보자. 전이 확률이 다음과 같이 주어진다.
+
+$$
+P_{X_i \mid X_{i-1}}(0 \mid 1) = P_{X_i \mid X_{i-1}}(1 \mid 0) = \alpha < \frac{1}{2}
+$$
+
+$$
+P_{X_i \mid X_{i-1}}(1 \mid 0) = P_{X_i \mid X_{i-1}}(0 \mid 1) = 1 - \alpha
+$$
+
+이때, 전이 행렬 $P$는 다음과 같이 정의할 수 있다
+
+$$
+P = \begin{bmatrix}
+1 - \alpha & \alpha \\
+\alpha & 1 - \alpha
+\end{bmatrix} \quad (115)
+$$
+
+초기 상태 분포를 다음과 같이 정의하면,
+
+$$
+\pi_0 = [1, 0]
+$$
+
+다음 단계 상태 분포 $\pi_1$은 다음과 같다.
+
+$$
+\pi_1 = [1 - \alpha, \alpha]
+$$
+
 ### 2.5.3 kth Order Markov Process
 
 확률 과정 X에 대해,
@@ -801,7 +890,6 @@ $$
 이 성립하는 시퀀스는 k차 마르코프 과정(kth Order Markov Process)를 따른다.
 
 
-
 즉, k차 마르코프 과정을 따르는 시퀀스에 대해서
 
 $$
@@ -1194,12 +1282,11 @@ $$
 
 ### 2.6.5 Joint Differential Entropy
 
-## 6.5 Joint Differential Entropy
 
 **Theorem 61 (Chain Rule of Differential Entropy).**
 
 $$
-h(X_1, X_2) = h(X_1) + h(X_2 \mid X_1) 
+h(X_1, X_2) = h(X_1) + h(X_2 \mid X_1)
 $$
 
 사실 discrete의 경우와 똑같다고 생각하면 된다.
@@ -1210,15 +1297,15 @@ $( X_1, X_2, X_3, \ldots, X_n )$ 들을 $X$ 라고 정의하자. 그러면 우
 예를 들어 $X_1$ 와 $X_2$ 가 연속적인 확률변수라면,
 
 $$
-h(X_1, X_2) = \mathbb{E} \left[ \log \frac{1}{f_{X_1,X_2}(X_1,X_2)} \right] 
+h(X_1, X_2) = \mathbb{E} \left[ \log \frac{1}{f_{X_1,X_2}(X_1,X_2)} \right]
 $$
 
 $$
-= \mathbb{E} \left[ \log \frac{1}{f_{X_1}(X_1)} \right] + \mathbb{E} \left[ \log \frac{1}{f_{X_2 \mid X_1}(X_2 \mid X_1)} \right] 
+= \mathbb{E} \left[ \log \frac{1}{f_{X_1}(X_1)} \right] + \mathbb{E} \left[ \log \frac{1}{f_{X_2 \mid X_1}(X_2 \mid X_1)} \right]
 $$
 
 $$
-= h(X_1) + h(X_2 \mid X_1) 
+= h(X_1) + h(X_2 \mid X_1)
 $$
 
 위와 같이 나타낼 수 있다. 이는 pmf(discrete)의 성질과 동일하다. 결합 확률은 주변확률과 조건부 확률의 곱으로 나타낼 수 있는데, pdf(continuous)에서도 동일하게 성립한다.
@@ -1227,15 +1314,14 @@ $$
 $X$ 와 $Y$ 가 독립이라는 것은 다음과 필요충분조건이다.
 
 $$
-I(X; Y) = 0 
+I(X; Y) = 0
 $$
 
-
 **Theorem 63 (Data Processing Inequality).**  
 \( X - Y - Z \) 가 Markov chain을 형성한다면
 
 $$
-I(Z; Y) \geq I(Z; X) 
+I(Z; Y) \geq I(Z; X)
 $$
 
 **Proof**  
@@ -1259,7 +1345,6 @@ $$
 
 첫번째 등식은 Markov property $f(Z \mid Y) = f(Z \mid Y, X)$ 에서 나온다.
 
-
 ### 2.6.6 Maximum Differential Entropy
 
 > **이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.**