Skip to content

Commit 5c6abf8

Browse files
committed
5.2
1 parent 8ea8c2f commit 5c6abf8

1 file changed

Lines changed: 157 additions & 2 deletions

File tree

_posts/2025-08-04-02.Information-Theory.md

Lines changed: 157 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -725,19 +725,105 @@ i.i.d. ←────────────|───────────
725725

726726
### 2.5.2 1st Order Markov Process
727727

728+
> **1차 마르코프 과정이란?**
729+
730+
확률 과정 $X$ = $\{X_1, X_2, \dots, X_n\}$이 있다고 할 때,
731+
$P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})$를 만족하는 과정을 1차 마르코프 과정이라고 한다.
732+
733+
$\therefore$ 현재 상태 $X_i$는 직전 상태 $X_{i-1}$에만 의존하고, 그 이전 상태들과는 무관하다.
734+
735+
> [! ]
736+
>모든 가능한 sequence tuple들의 결합 확률 분포를 $P_{X^n}(x^n) = P_{X_1, \cdots, X_n}(x_1, \dots, x_n)$라고 할 때, 1차 마르코프 과정은 다음을 만족한다.
737+
>
738+
$>P_{X^n}(x^n) = \prod_{i=1}^n P_{X_i \mid X_{i-1}}(x_i \mid x_{i-1})$
739+
740+
$$
741+
P(X_1, X_2, \dots, X_n) = P(X_1) \times P(X_2 \mid X_1) \times \cdots \times P(X_n \mid X_{n-1})
742+
$$
743+
744+
1차 마르코프 과정이므로,
745+
$$
746+
P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})
747+
$$
748+
위 식을 바꾸어 쓰면,
749+
$$
750+
P(X_1, X_2, \dots, X_n) = P(X_1) \prod_{i=2}^n P(X_i \mid X_{i-1})
751+
$$
752+
상태 공간이 $\{1, \dots, n\}$이고 전이 확률이 동일하다고 가정하면, 전이 행렬 $P$를 정의할 수 있다.
753+
754+
$$
755+
P_{u,v} = \Pr[X_i = u \mid X_{i-1} = v]
756+
$$
757+
758+
그리고 $t$시점 상태 분포 벡터를
759+
$$
760+
\pi_t = \begin{bmatrix}
761+
\Pr[X_t = 1] \\
762+
\Pr[X_t = 2] \\
763+
\vdots \\
764+
\Pr[X_t = n]
765+
\end{bmatrix}
766+
$$
767+
768+
라고 하면, 각 상태 u에 대해 다음 식이 성립한다.
769+
770+
$$
771+
\Pr[X_t = u] = \sum_{v=1}^n \Pr[X_t = u \mid X_{t-1} = v] \Pr[X_{t-1} = v] = \sum_{v=1}^n P_{u,v} \pi_{t-1,v}
772+
$$
773+
774+
이를 벡터 형태로 변환하면
775+
776+
$$
777+
\pi_t = P \times \pi_{t-1}
778+
$$
779+
780+
---
781+
782+
> **Exercise 43.**
783+
784+
이진확률과정 $X$를 고려해보자. 전이 확률이 다음과 같이 주어진다.
785+
786+
$$
787+
P_{X_i \mid X_{i-1}}(0 \mid 1) = P_{X_i \mid X_{i-1}}(1 \mid 0) = \alpha < \frac{1}{2}
788+
$$
789+
790+
$$
791+
P_{X_i \mid X_{i-1}}(1 \mid 0) = P_{X_i \mid X_{i-1}}(0 \mid 1) = 1 - \alpha
792+
$$
793+
794+
이때, 전이 행렬 $P$는 다음과 같이 정의할 수 있다
795+
796+
$$
797+
P = \begin{bmatrix}
798+
1 - \alpha & \alpha \\
799+
\alpha & 1 - \alpha
800+
\end{bmatrix} \quad (115)
801+
$$
802+
803+
초기 상태 분포를 다음과 같이 정의하면,
804+
805+
$$
806+
\pi_0 = [1, 0]
807+
$$
808+
809+
다음 단계 상태 분포 $\pi_1$은 다음과 같다.
810+
$$
811+
\pi_1 = [1 - \alpha, \alpha]
812+
$$
813+
728814
### 2.5.3 kth Order Markov Process
729815

730816
확률 과정 X에 대해,
731817
$$
732818
P_{X_i | X^{i-1}}(x_i \mid x^{i-1}) = P_{X_i | X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1}),
733819
$$
734-
이 성립하는 시퀀스는 **k차 마르코프 과정(kth Order Markov Process)**따릅니다.
820+
이 성립하는 시퀀스는 **k차 마르코프 과정(kth Order Markov Process)**따른다.
735821

736822
즉, k차 마르코프 과정을 따르는 시퀀스에 대해서
737823
$$
738824
P_{X^n}(x^n) = \prod_{i=1}^{n} P_{X_i \mid X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1})
739825
$$
740-
성립합니다.
826+
성립한다.
741827

742828
### 2.5.4 Stationary Distribution
743829

@@ -756,3 +842,72 @@ $$
756842
### 2.6.5 Joint Differential Entropy
757843

758844
### 2.6.6 Maximum Differential Entropy
845+
846+
> [! ] 이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.
847+
>
848+
> 이산 확률 변수 \( X \in \{1, 2, \dots, K\} \)의 엔트로피는 다음 부등식을 만족한다.
849+
> $H(X) \leq \log_2 K$
850+
>
851+
>등호는 균등 분포일 때 성립한다.
852+
853+
854+
> 2차 모멘트 제약 조건
855+
856+
확률 변수 $X$가 다음을 만족한다고 가정한다.
857+
858+
$$
859+
\mathbb{E}[X^2] \leq P
860+
$$
861+
862+
이 조건 하에서, 미분 엔트로피가 최대가 되는 분포는 무엇인가?
863+
864+
---
865+
866+
**정리65. 가우시안 분포가 최대 미분 엔트로피를 가진다.**
867+
868+
*proof.*
869+
870+
$X$의 확률 밀도 함수를 $f_X$,
871+
평균 0, 분산 $P$인 가우시안 확률 변수 $X' \sim \mathcal{N}(0, P)$의 pdf를
872+
873+
$$
874+
g(x) = \frac{1}{\sqrt{2 \pi P}} \exp\left(-\frac{x^2}{2P}\right)
875+
$$
876+
877+
라고 하자.
878+
879+
880+
KL 발산의 정의에 의해,
881+
882+
$$
883+
D(f \| g) = \mathbb{E}_f \left[\log \frac{f_X(X)}{g(X)}\right]
884+
$$
885+
886+
$$
887+
D(f \| g) = \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] - \mathbb{E}_f \left[\log \frac{1}{f_X(X)}\right] = \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] - h(f_X)
888+
$$
889+
890+
여기서 $h(f_X)$는 확률 변수 $X \sim f_X$의 미분 엔트로피이다.
891+
892+
$$
893+
\mathbb{E}_f \left[\log \frac{1}{g(X)}\right] = \log \sqrt{2 \pi P} + \frac{\mathbb{E}_f [X^2]}{2P}
894+
$$
895+
896+
그리고 $\mathbb{E}_f[X^2] = \mathbb{E}_g[X^2] = P$이므로,
897+
898+
$$
899+
\mathbb{E}_f \left[\log \frac{1}{g(X)}\right] = \log \sqrt{2 \pi P} + \frac{P}{2P} = \log \sqrt{2 \pi P} + \frac{1}{2} = h(g)
900+
$$
901+
902+
903+
$$
904+
D(f \| g) = h(g) - h(f_X) \geq 0
905+
$$
906+
907+
$D(f \| g)$은 K-L Divergence이므로 항상 0 이상이다.
908+
909+
$$
910+
h(g) \geq h(f_X)
911+
$$
912+
913+
$\therefore$ 2차 모멘트 제약 조건 하에서 가우시안 분포가 최대 미분 엔트로피를 가진다.

0 commit comments

Comments
 (0)