|
850 | 850 |
|
851 | 851 | ### 2.6.3 Differential Entropy |
852 | 852 |
|
| 853 | +이산(discrete)적인 상황에서는, 확률 분포가 균일(uniform)할 때 엔트로피가 최대가 된다. 그리고 사건(event)의 개수가 많아질수록 엔트로피가 증가한다. |
| 854 | +그러나 이를 **연속(continuous)** 적인 상황으로 확장하기 위해서는 해결해야 할 몇 가지 문제가 있다. 때문에 우리는 일단 연속 확률 변수의 상호정보량을 정의해야 하며, 이에 앞서 **KL 발산(KL divergence)** 의 정의를 연속적인 상황으로 확장하면 다음과 같다. |
| 855 | + |
| 856 | +$$ |
| 857 | +D(f \parallel g) = \mathbb{E}_f \left[ \log \frac{f(X)}{g(X)} \right] |
| 858 | +$$ |
| 859 | + |
| 860 | +이산적인 상황과 마찬가지로, KL 발산은 항상 0 이상이다. |
| 861 | + |
| 862 | +$$ |
| 863 | +\begin{aligned} |
| 864 | +D(f \parallel g) |
| 865 | +&= \mathbb{E}_f \left[ \log \frac{f(X)}{g(X)} \right] \\ |
| 866 | +&= \int f(x) \cdot \log \frac{f(x)}{g(x)} \, dx \\ |
| 867 | +&= - \int f(x) \cdot \log \frac{g(x)}{f(x)} \, dx \\ |
| 868 | +&\ge - \log \left( \int f(x) \cdot \frac{g(x)}{f(x)} \, dx \right) \\ |
| 869 | +&= 0 |
| 870 | +\end{aligned} |
| 871 | +$$ |
| 872 | + |
| 873 | +$-\log$는 아래로 볼록(convex)인 함수이므로, Jensen 부등식을 위와 같이 적용할 수 있다. |
| 874 | + |
| 875 | +--- |
| 876 | + |
| 877 | +이제 우리는 KL 발산을 통해 연속적인 상황에서의 상호정보량을 다음과 같이 정의한다. |
| 878 | + |
| 879 | +$$ |
| 880 | +\begin{aligned} |
| 881 | +I(X; Y) |
| 882 | +&= \mathbb{E} \left[ \log \frac{f_{X,Y}(X,Y)}{f_X(X) f_Y(Y)} \right] \\ |
| 883 | +&= D\left(f_{X,Y} \parallel f_X f_Y \right) |
| 884 | +\end{aligned} |
| 885 | +$$ |
| 886 | + |
| 887 | +**정리 59. 상호정보량은 양수이다** |
| 888 | + |
| 889 | +$$ |
| 890 | +I(X; Y) \ge 0 |
| 891 | +$$ |
| 892 | + |
| 893 | +이는 $h(X) \ge h(X \mid Y)$를 의미하며, 조건부를 취하는 것은 미분 엔트로피를 감소(또는 최소 유지)시킨다는 것을 알 수 있다. |
| 894 | + |
| 895 | +매우 작은 $\Delta$에 대해 $P(X^\Delta) = P(i \cdot \Delta \le X \le (i+1) \cdot \Delta) = \Delta \cdot f_X(X)$로 연속 확률변수 $X, Y$를 $X^\Delta, Y^\Delta$로 이산화(discretize)하면, 상호정보량의 정의는 다음과 같다. |
| 896 | + |
| 897 | +$$ |
| 898 | +\begin{aligned} |
| 899 | +I(X^\Delta; Y^\Delta) &= \mathbb{E} \left[ \log \frac{P_{X^\Delta, Y^\Delta}(X^\Delta, Y^\Delta)}{P_{X^\Delta}(X^\Delta) P_{Y^\Delta}(Y^\Delta)} \right] \\ |
| 900 | +&= \mathbb{E} \left[ \log \frac{\Delta^2 \cdot f_{X,Y}(X,Y)}{\Delta \cdot f_X(X) \cdot \Delta \cdot f_Y(Y)} \right] \\ |
| 901 | +&= \mathbb{E} \left[ \log \frac{f_{X,Y}(X,Y)}{f_X(X) \cdot f_Y(Y)} \right] |
| 902 | +\end{aligned} |
| 903 | +$$ |
| 904 | + |
| 905 | +이와 같이, 우리는 이산적인 상황으로부터 연속적인 상황에서 상호정보량의 정의를 자연스럽게 도출할 수 있다. |
| 906 | + |
| 907 | +--- |
| 908 | + |
| 909 | +**미분 엔트로피(differential entropy)** $h$는 이산 확률변수의 엔트로피에 대응하는 연속 확률변수의 엔트로피이다. |
| 910 | +위와 동일한 전략을 사용하여 연속 엔트로피를 유도해보며, 어떠한 차이가 있는지 살펴보자. |
| 911 | + |
| 912 | +$$ |
| 913 | +\begin{aligned} |
| 914 | +H(X^\Delta) &= \mathbb{E} \left[ \log \frac{1}{P_{X^\Delta}(X^\Delta)} \right] \\ |
| 915 | +&= \mathbb{E} \left[ \log \frac{1}{\Delta \cdot f_X(X)} \right] \\ |
| 916 | +&= \mathbb{E} \left[ \log \frac{1}{f_X(X)} \right] - \log \Delta \\ |
| 917 | +&= h(X) - \log \Delta |
| 918 | +\end{aligned} |
| 919 | +$$ |
| 920 | + |
| 921 | +여기서 |
| 922 | + |
| 923 | +$$ |
| 924 | +h(X) = \int f_X(x) \log \frac{1}{f_X(x)} \, dx |
| 925 | +$$ |
| 926 | + |
| 927 | +가 미분 엔트로피이다. |
| 928 | + |
| 929 | +미분 엔트로피 $h(X)$는 단순히 이산화된 엔트로피 $H(X^\Delta)$와 $\log\Delta$의 차이로 같아지지 않는다. |
| 930 | +$\Delta$가 작아질수록 $H(X^\Delta)$는 더 커지는데, 이는 $\Delta$가 작을수록 더 많은 경우의 수가 가능해져 엔트로피가 증가한다고 생각하면 된다. |
| 931 | + |
| 932 | +--- |
| 933 | + |
| 934 | +이산적인 상황에서 엔트로피 $H$는 **라벨 불변성(label invariance)** 을 만족하지만, 미분 엔트로피는 그렇지 않다. 라벨 불변성이란, 일대일 대응 $f$에 대해 $H(X) = H(f(X))$가 성립하는 성질을 말한다. |
| 935 | + |
| 936 | +> (예시) |
| 937 | +> |
| 938 | +> 이산 확률변수 $X_1 \in \{1,2,3\}$에 대해 |
| 939 | +> $P(X_1 = 1) = 0.4$, $P(X_1 = 2) = 0.5$, $P(X_1 = 3) = 0.1$라 하자. |
| 940 | +> 또한 $X_2 = 2X_1 \in \{2,4,6\}$이며 |
| 941 | +> $P(X_2 = 2) = 0.4$, $P(X_2 = 4) = 0.5$, $P(X_2 = 6) = 0.1$이다. |
| 942 | +> 분포가 동일하므로 $H(X_1)$과 $H(X_2)$는 동일하다. |
| 943 | +> |
| 944 | +> 그러나 연속 확률 변수에서는 그렇지 않다. 예를 들어 $U \sim \mathrm{Unif}(0,1)$이고 $V = 2U \sim \mathrm{Unif}(0,2)$일 때, |
| 945 | +> $h(U) = \log(1-0) = \log 1 = 0$, |
| 946 | +> $h(V) = \log(2-0) = \log 2 = 1$이다. |
| 947 | +
|
| 948 | +또한, 미분 엔트로피는 음수가 될 수도 있다. |
| 949 | +예를 들어 $U \sim \mathrm{Unif}(0, 1/2)$라면 $h(U) = -\log 2$가 된다. 이는 미분 엔트로피가 $\log\Delta$ 항을 포함하여 정규화되기 때문이다. |
| 950 | + |
853 | 951 | ### 2.6.4 Properties of Differential Entropy |
854 | 952 |
|
855 | 953 | ### 2.6.5 Joint Differential Entropy |
|
0 commit comments