@@ -725,120 +725,103 @@ i.i.d. ←────────────|───────────
725725
726726### 2.5.2 1st Order Markov Process
727727
728- > ** 1차 마르코프 과정이란?**
729-
730- 확률 과정 $X$ = $\{ X_1, X_2, \dots, X_n\} $이 있다고 할 때,
731- $P(X_i \mid X_ {i-1}, X_ {i-2}, \dots, X_1) = P(X_i \mid X_ {i-1})$를 만족하는 과정을 1차 마르코프 과정이라고 한다.
732-
733- $\therefore$ 현재 상태 $X_i$는 직전 상태 $X_ {i-1}$에만 의존하고, 그 이전 상태들과는 무관하다.
734-
735- > 모든 가능한 sequence tuple들의 결합 확률 분포를 $P_ {X^n}(x^n) = P_ {X_1, \cdots, X_n}(x_1, \dots, x_n)$라고 할 때, 1차 마르코프 과정은 다음을 만족한다.
736- >
737- $> P_ {X^n}(x^n) = \prod_ {i=1}^n P_ {X_i \mid X_ {i-1}}(x_i \mid x_ {i-1})$
728+ ### 2.5.3 kth Order Markov Process
738729
730+ 확률 과정 X에 대해,
739731$$
740- P(X_1, X_2, \dots, X_n) = P(X_1) \times P(X_2 \ mid X_1) \times \cdots \times P(X_n \mid X_{n- 1})
732+ P_{X_i | X^{i-1}}(x_i \ mid x^{i-1}) = P_{X_i | X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i- 1}),
741733$$
734+ 이 성립하는 시퀀스는 ** k차 마르코프 과정(kth Order Markov Process)** 를 따른다.
742735
743- 1차 마르코프 과정이므로,
744- $$
745- P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})
746- $$
747- 위 식을 바꾸어 쓰면,
736+ 즉, k차 마르코프 과정을 따르는 시퀀스에 대해서
748737$$
749- P(X_1, X_2, \dots, X_n ) = P(X_1) \prod_{i=2}^n P( X_i \mid X_{i-1})
738+ P_{X^n}(x^n ) = \prod_{i=1}^{n} P_{ X_i \mid X_{i-k}^{i-1}}(x_i \mid x_{i-k}^ {i-1})
750739$$
751- 상태 공간이 $ \{ 1, \dots, n \} $이고 전이 확률이 동일하다고 가정하면, 전이 행렬 $P$를 정의할 수 있다 .
740+ 이 성립한다 .
752741
753- $$
754- P_{u,v} = \Pr[X_i = u \mid X_{i-1} = v]
755- $$
742+ ### 2.5.4 Stationary Distribution
756743
757- 그리고 $t$시점 상태 분포 벡터를
758- $$
759- \pi_t = \begin{bmatrix}
760- \Pr[X_t = 1] \\
761- \Pr[X_t = 2] \\
762- \vdots \\
763- \Pr[X_t = n]
764- \end{bmatrix}
765- $$
744+ ### 2.5.5 Stationary Markov Process
766745
767- 라고 하면, 각 상태 u에 대해 다음 식이 성립한다.
746+ ## 2.6 Continuous Random Variables
768747
769- $$
770- \Pr[X_t = u] = \sum_{v=1}^n \Pr[X_t = u \mid X_{t-1} = v] \Pr[X_{t-1} = v] = \sum_{v=1}^n P_{u,v} \pi_{t-1,v}
771- $$
748+ ### 2.6.1 Probability Density Function
749+
750+ ### 2.6.2 Gaussian
751+
752+ ### 2.6.3 Differential Entropy
753+
754+ ### 2.6.4 Properties of Differential Entropy
755+
756+ ### 2.6.5 Joint Differential Entropy
757+
758+ ### 2.6.6 Maximum Differential Entropy
759+
760+ > ** 이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.**
761+ >
762+ > 이산 확률 변수 $X \in \{ 1, 2, \dots, K\} $의 엔트로피는 다음 부등식을 만족한다.
763+ > $H(X) \leq \log_2 K$
764+ >
765+ > 등호는 균등 분포일 때 성립한다.
772766
773- 이를 벡터 형태로 변환하면
767+
768+ > 2차 모멘트 제약 조건
769+
770+ 확률 변수 $X$가 다음을 만족한다고 가정한다.
774771
775772$$
776- \pi_t = P \times \pi_{t-1}
773+ \mathbb{E}[X^2] \leq P
777774$$
778775
776+ 이 조건 하에서, 미분 엔트로피가 최대가 되는 분포는 무엇인가?
777+
779778---
780779
781- > ** Exercise 43 .**
780+ ** 정리65. 가우시안 분포가 최대 미분 엔트로피를 가진다 .**
782781
783- 이진확률과정 $X$를 고려해보자. 전이 확률이 다음과 같이 주어진다.
782+ * proof. *
784783
785- $$
786- P_{X_i \mid X_{i-1}}(0 \mid 1) = P_{X_i \mid X_{i-1}}(1 \mid 0) = \alpha < \frac{1}{2}
787- $$
784+ $X$의 확률 밀도 함수를 $f_X$,
785+ 평균 0, 분산 $P$인 가우시안 확률 변수 $X' \sim \mathcal{N}(0, P)$의 pdf를
788786
789787$$
790- P_{X_i \mid X_{i-1}}(1 \mid 0) = P_{X_i \mid X_{i-1}}(0 \mid 1) = 1 - \alpha
788+ g(x) = \frac{1}{\sqrt{2 \pi P}} \exp\left(-\frac{x^2}{2P}\right)
791789$$
792790
793- 이때, 전이 행렬 $P$는 다음과 같이 정의할 수 있다
791+ 라고 하자.
794792
795- $$
796- P = \begin{bmatrix}
797- 1 - \alpha & \alpha \\
798- \alpha & 1 - \alpha
799- \end{bmatrix} \quad (115)
800- $$
801793
802- 초기 상태 분포를 다음과 같이 정의하면,
794+ KL 발산의 정의에 의해,
803795
804796$$
805- \pi_0 = [1, 0 ]
797+ D(f \| g) = \mathbb{E}_f \left[\log \frac{f_X(X)}{g(X)}\right ]
806798$$
807799
808- 다음 단계 상태 분포 $\pi_1$은 다음과 같다.
809800$$
810- \pi_1 = [1 - \alpha, \alpha]
801+ D(f \| g) = \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] - \mathbb{E}_f \left[\log \frac{1}{f_X(X)}\right] = \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] - h(f_X)
811802$$
812803
813- ### 2.5.3 kth Order Markov Process
804+ 여기서 $h(f_X)$는 확률 변수 $X \sim f_X$의 미분 엔트로피이다.
814805
815- 확률 과정 X에 대해,
816806$$
817- P_{X_i | X^{i-1}}(x_i \mid x^{i-1}) = P_{X_i | X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1}),
807+ \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] = \log \sqrt{2 \pi P} + \frac{\mathbb{E}_f [X^2]}{2P}
818808$$
819- 이 성립하는 시퀀스는 ** k차 마르코프 과정(kth Order Markov Process)** 를 따른다.
820809
821- 즉, k차 마르코프 과정을 따르는 시퀀스에 대해서
810+ 그리고 $\mathbb{E}_ f[ X^2] = \mathbb{E}_ g[ X^2] = P$이므로,
811+
822812$$
823- P_{X^n}(x^n) = \prod_{i=1}^{n} P_{X_i \mid X_{i-k}^{i-1}}(x_i \mid x_{i-k}^{i-1} )
813+ \mathbb{E}_f \left[\log \frac{1}{g(X)}\right] = \log \sqrt{2 \pi P} + \frac{P}{2P} = \log \sqrt{2 \pi P} + \frac{1}{2} = h(g )
824814$$
825- 이 성립한다.
826815
827- ### 2.5.4 Stationary Distribution
828816
829- ### 2.5.5 Stationary Markov Process
830-
831- ## 2.6 Continuous Random Variables
832-
833- ### 2.6.1 Probability Density Function
834-
835- ### 2.6.2 Gaussian
836-
837- ### 2.6.3 Differential Entropy
838-
839- ### 2.6.4 Properties of Differential Entropy
817+ $$
818+ D(f \| g) = h(g) - h(f_X) \geq 0
819+ $$
840820
841- ### 2.6.5 Joint Differential Entropy
821+ $D(f \| g)$은 K-L Divergence이므로 항상 0 이상이다.
842822
843- ### 2.6.6 Maximum Differential Entropy
823+ $$
824+ h(g) \geq h(f_X)
825+ $$
844826
827+ $\therefore$ 2차 모멘트 제약 조건 하에서 가우시안 분포가 최대 미분 엔트로피를 가진다.
0 commit comments