Skip to content

Commit e8da8ec

Browse files
authored
Merge branch 'master' into feature/6.4
2 parents 839053f + 90ec8ef commit e8da8ec

1 file changed

Lines changed: 95 additions & 10 deletions

File tree

_posts/2025-08-04-02.Information-Theory.md

Lines changed: 95 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -789,6 +789,95 @@ i.i.d. ←────────────|───────────
789789

790790
### 2.5.2 1st Order Markov Process
791791

792+
> **1차 마르코프 과정이란?**
793+
> 확률 과정 $X$ = $\{X_1, X_2, \dots, X_n\}$이 있다고 할 때,
794+
> $P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})$를 만족하는 과정을 1차 마르코프 과정이라고 한다.
795+
796+
$\therefore$ 현재 상태 $X_i$는 직전 상태 $X_{i-1}$에만 의존하고, 그 이전 상태들과는 무관하다.
797+
798+
> 모든 가능한 sequence tuple들의 결합 확률 분포를 $P_{X^n}(x^n) = P_{X_1, \cdots, X_n}(x_1, \dots, x_n)$라고 할 때, 1차 마르코프 과정은 다음을 만족한다.
799+
>
800+
> $>P_{X^n}(x^n) = \prod_{i=1}^n P_{X_i \mid X_{i-1}}(x_i \mid x_{i-1})$
801+
802+
$$
803+
P(X_1, X_2, \dots, X_n) = P(X_1) \times P(X_2 \mid X_1) \times \cdots \times P(X_n \mid X_{n-1})
804+
$$
805+
806+
1차 마르코프 과정이므로,
807+
808+
$$
809+
P(X_i \mid X_{i-1}, X_{i-2}, \dots, X_1) = P(X_i \mid X_{i-1})
810+
$$
811+
812+
위 식을 바꾸어 쓰면,
813+
814+
$$
815+
P(X_1, X_2, \dots, X_n) = P(X_1) \prod_{i=2}^n P(X_i \mid X_{i-1})
816+
$$
817+
818+
상태 공간이 $\{1, \dots, n\}$이고 전이 확률이 동일하다고 가정하면, 전이 행렬 $P$를 정의할 수 있다.
819+
820+
$$
821+
P_{u,v} = \Pr[X_i = u \mid X_{i-1} = v]
822+
$$
823+
824+
그리고 $t$시점 상태 분포 벡터를
825+
826+
$$
827+
\pi_t = \begin{bmatrix}
828+
\Pr[X_t = 1] \\
829+
\Pr[X_t = 2] \\
830+
\vdots \\
831+
\Pr[X_t = n]
832+
\end{bmatrix}
833+
$$
834+
835+
라고 하면, 각 상태 u에 대해 다음 식이 성립한다.
836+
837+
$$
838+
\Pr[X_t = u] = \sum_{v=1}^n \Pr[X_t = u \mid X_{t-1} = v] \Pr[X_{t-1} = v] = \sum_{v=1}^n P_{u,v} \pi_{t-1,v}
839+
$$
840+
841+
이를 벡터 형태로 변환하면
842+
843+
$$
844+
\pi_t = P \times \pi_{t-1}
845+
$$
846+
847+
---
848+
849+
> **Exercise 43.**
850+
> 이진확률과정 $X$를 고려해보자. 전이 확률이 다음과 같이 주어진다.
851+
852+
$$
853+
P_{X_i \mid X_{i-1}}(0 \mid 1) = P_{X_i \mid X_{i-1}}(1 \mid 0) = \alpha < \frac{1}{2}
854+
$$
855+
856+
$$
857+
P_{X_i \mid X_{i-1}}(1 \mid 0) = P_{X_i \mid X_{i-1}}(0 \mid 1) = 1 - \alpha
858+
$$
859+
860+
이때, 전이 행렬 $P$는 다음과 같이 정의할 수 있다
861+
862+
$$
863+
P = \begin{bmatrix}
864+
1 - \alpha & \alpha \\
865+
\alpha & 1 - \alpha
866+
\end{bmatrix} \quad (115)
867+
$$
868+
869+
초기 상태 분포를 다음과 같이 정의하면,
870+
871+
$$
872+
\pi_0 = [1, 0]
873+
$$
874+
875+
다음 단계 상태 분포 $\pi_1$은 다음과 같다.
876+
877+
$$
878+
\pi_1 = [1 - \alpha, \alpha]
879+
$$
880+
792881
### 2.5.3 kth Order Markov Process
793882

794883
확률 과정 X에 대해,
@@ -801,7 +890,6 @@ $$
801890
이 성립하는 시퀀스는 k차 마르코프 과정(kth Order Markov Process)를 따른다.
802891

803892

804-
805893
즉, k차 마르코프 과정을 따르는 시퀀스에 대해서
806894

807895
$$
@@ -1194,12 +1282,11 @@ $$
11941282

11951283
### 2.6.5 Joint Differential Entropy
11961284

1197-
## 6.5 Joint Differential Entropy
11981285

11991286
**Theorem 61 (Chain Rule of Differential Entropy).**
12001287

12011288
$$
1202-
h(X_1, X_2) = h(X_1) + h(X_2 \mid X_1)
1289+
h(X_1, X_2) = h(X_1) + h(X_2 \mid X_1)
12031290
$$
12041291

12051292
사실 discrete의 경우와 똑같다고 생각하면 된다.
@@ -1210,15 +1297,15 @@ $( X_1, X_2, X_3, \ldots, X_n )$ 들을 $X$ 라고 정의하자. 그러면 우
12101297
예를 들어 $X_1$ 와 $X_2$ 가 연속적인 확률변수라면,
12111298

12121299
$$
1213-
h(X_1, X_2) = \mathbb{E} \left[ \log \frac{1}{f_{X_1,X_2}(X_1,X_2)} \right]
1300+
h(X_1, X_2) = \mathbb{E} \left[ \log \frac{1}{f_{X_1,X_2}(X_1,X_2)} \right]
12141301
$$
12151302

12161303
$$
1217-
= \mathbb{E} \left[ \log \frac{1}{f_{X_1}(X_1)} \right] + \mathbb{E} \left[ \log \frac{1}{f_{X_2 \mid X_1}(X_2 \mid X_1)} \right]
1304+
= \mathbb{E} \left[ \log \frac{1}{f_{X_1}(X_1)} \right] + \mathbb{E} \left[ \log \frac{1}{f_{X_2 \mid X_1}(X_2 \mid X_1)} \right]
12181305
$$
12191306

12201307
$$
1221-
= h(X_1) + h(X_2 \mid X_1)
1308+
= h(X_1) + h(X_2 \mid X_1)
12221309
$$
12231310

12241311
위와 같이 나타낼 수 있다. 이는 pmf(discrete)의 성질과 동일하다. 결합 확률은 주변확률과 조건부 확률의 곱으로 나타낼 수 있는데, pdf(continuous)에서도 동일하게 성립한다.
@@ -1227,15 +1314,14 @@ $$
12271314
$X$ 와 $Y$ 가 독립이라는 것은 다음과 필요충분조건이다.
12281315

12291316
$$
1230-
I(X; Y) = 0
1317+
I(X; Y) = 0
12311318
$$
12321319

1233-
12341320
**Theorem 63 (Data Processing Inequality).**
12351321
\( X - Y - Z \) 가 Markov chain을 형성한다면
12361322

12371323
$$
1238-
I(Z; Y) \geq I(Z; X)
1324+
I(Z; Y) \geq I(Z; X)
12391325
$$
12401326

12411327
**Proof**
@@ -1259,7 +1345,6 @@ $$
12591345

12601346
첫번째 등식은 Markov property $f(Z \mid Y) = f(Z \mid Y, X)$ 에서 나온다.
12611347

1262-
12631348
### 2.6.6 Maximum Differential Entropy
12641349

12651350
> **이산 변수에서 최대 엔트로피는 균등 분포에서 달성된다.**

0 commit comments

Comments
 (0)