Merge pull request #20 from jungin7612/feature/6.3

2024148034 · web-flow · commit f400ca47f4d1 · 2025-08-10T00:22:47.000+09:00
chapter 6.3
diff --git a/_posts/2025-08-04-02.Information-Theory.md b/_posts/2025-08-04-02.Information-Theory.md
@@ -850,6 +850,104 @@ $$
 
 ### 2.6.3 Differential Entropy
 
+이산(discrete)적인 상황에서는, 확률 분포가 균일(uniform)할 때 엔트로피가 최대가 된다. 그리고 사건(event)의 개수가 많아질수록 엔트로피가 증가한다.
+그러나 이를 **연속(continuous)** 적인 상황으로 확장하기 위해서는 해결해야 할 몇 가지 문제가 있다. 때문에 우리는 일단 연속 확률 변수의 상호정보량을 정의해야 하며, 이에 앞서 **KL 발산(KL divergence)** 의 정의를 연속적인 상황으로 확장하면 다음과 같다.
+
+$$
+D(f \parallel g) = \mathbb{E}_f \left[ \log \frac{f(X)}{g(X)} \right]
+$$
+
+이산적인 상황과 마찬가지로, KL 발산은 항상 0 이상이다.
+
+$$
+\begin{aligned}
+D(f \parallel g) 
+&= \mathbb{E}_f \left[ \log \frac{f(X)}{g(X)} \right] \\
+&= \int f(x) \cdot \log \frac{f(x)}{g(x)} \, dx \\
+&= - \int f(x) \cdot \log \frac{g(x)}{f(x)} \, dx \\
+&\ge - \log \left( \int f(x) \cdot \frac{g(x)}{f(x)} \, dx \right) \\
+&= 0
+\end{aligned}
+$$
+
+$-\log$는 아래로 볼록(convex)인 함수이므로, Jensen 부등식을 위와 같이 적용할 수 있다.
+
+---
+
+이제 우리는 KL 발산을 통해 연속적인 상황에서의 상호정보량을 다음과 같이 정의한다.
+
+$$
+\begin{aligned}
+I(X; Y) 
+&= \mathbb{E} \left[ \log \frac{f_{X,Y}(X,Y)}{f_X(X) f_Y(Y)} \right] \\
+&= D\left(f_{X,Y} \parallel f_X f_Y \right)
+\end{aligned}
+$$
+
+**정리 59. 상호정보량은 양수이다**
+
+$$
+I(X; Y) \ge 0
+$$
+
+이는 $h(X) \ge h(X \mid Y)$를 의미하며, 조건부를 취하는 것은 미분 엔트로피를 감소(또는 최소 유지)시킨다는 것을 알 수 있다.
+
+매우 작은 $\Delta$에 대해 $P(X^\Delta) = P(i \cdot \Delta \le X \le (i+1) \cdot \Delta) = \Delta \cdot f_X(X)$로 연속 확률변수 $X, Y$를 $X^\Delta, Y^\Delta$로 이산화(discretize)하면, 상호정보량의 정의는 다음과 같다.
+
+$$
+\begin{aligned}
+I(X^\Delta; Y^\Delta) &= \mathbb{E} \left[ \log \frac{P_{X^\Delta, Y^\Delta}(X^\Delta, Y^\Delta)}{P_{X^\Delta}(X^\Delta) P_{Y^\Delta}(Y^\Delta)} \right] \\
+&= \mathbb{E} \left[ \log \frac{\Delta^2 \cdot f_{X,Y}(X,Y)}{\Delta \cdot f_X(X) \cdot \Delta \cdot f_Y(Y)} \right] \\
+&= \mathbb{E} \left[ \log \frac{f_{X,Y}(X,Y)}{f_X(X) \cdot f_Y(Y)} \right]
+\end{aligned}
+$$
+
+이와 같이, 우리는 이산적인 상황으로부터 연속적인 상황에서 상호정보량의 정의를 자연스럽게 도출할 수 있다.
+
+---
+
+**미분 엔트로피(differential entropy)** $h$는 이산 확률변수의 엔트로피에 대응하는 연속 확률변수의 엔트로피이다.
+위와 동일한 전략을 사용하여 연속 엔트로피를 유도해보며, 어떠한 차이가 있는지 살펴보자.
+
+$$
+\begin{aligned}
+H(X^\Delta) &= \mathbb{E} \left[ \log \frac{1}{P_{X^\Delta}(X^\Delta)} \right] \\
+&= \mathbb{E} \left[ \log \frac{1}{\Delta \cdot f_X(X)} \right] \\
+&= \mathbb{E} \left[ \log \frac{1}{f_X(X)} \right] - \log \Delta \\
+&= h(X) - \log \Delta
+\end{aligned}
+$$
+
+여기서
+
+$$
+h(X) = \int f_X(x) \log \frac{1}{f_X(x)} \, dx
+$$
+
+가 미분 엔트로피이다.
+
+미분 엔트로피 $h(X)$는 단순히 이산화된 엔트로피 $H(X^\Delta)$와 $\log\Delta$의 차이로 같아지지 않는다.  
+$\Delta$가 작아질수록 $H(X^\Delta)$는 더 커지는데, 이는 $\Delta$가 작을수록 더 많은 경우의 수가 가능해져 엔트로피가 증가한다고 생각하면 된다.
+
+---
+
+이산적인 상황에서 엔트로피 $H$는 **라벨 불변성(label invariance)** 을 만족하지만, 미분 엔트로피는 그렇지 않다.  라벨 불변성이란, 일대일 대응 $f$에 대해 $H(X) = H(f(X))$가 성립하는 성질을 말한다. 
+
+> (예시)
+> 
+> 이산 확률변수 $X_1 \in \{1,2,3\}$에 대해  
+> $P(X_1 = 1) = 0.4$, $P(X_1 = 2) = 0.5$, $P(X_1 = 3) = 0.1$라 하자.
+> 또한 $X_2 = 2X_1 \in \{2,4,6\}$이며  
+> $P(X_2 = 2) = 0.4$, $P(X_2 = 4) = 0.5$, $P(X_2 = 6) = 0.1$이다.  
+> 분포가 동일하므로 $H(X_1)$과 $H(X_2)$는 동일하다.
+> 
+> 그러나 연속 확률 변수에서는 그렇지 않다. 예를 들어 $U \sim \mathrm{Unif}(0,1)$이고 $V = 2U \sim \mathrm{Unif}(0,2)$일 때,  
+> $h(U) = \log(1-0) = \log 1 = 0$,  
+> $h(V) = \log(2-0) = \log 2 = 1$이다.
+
+또한, 미분 엔트로피는 음수가 될 수도 있다. 
+예를 들어 $U \sim \mathrm{Unif}(0, 1/2)$라면  $h(U) = -\log 2$가 된다. 이는 미분 엔트로피가 $\log\Delta$ 항을 포함하여 정규화되기 때문이다.
+
 ### 2.6.4 Properties of Differential Entropy
 
 ### 2.6.5 Joint Differential Entropy