@@ -35,6 +35,68 @@ long contents .....
3535
3636## 2.4 Jointly Distributed Random Variables
3737
38+ 두 개의 확률변수 $X \in \mathcal{X},\ Y \in \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다.
39+ $$
40+ p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y]
41+ $$
42+ 이 결합확률분포의 확률밀도함수 $p_ {X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다.
43+
44+ 이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다.
45+ $$
46+ p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)}
47+ $$
48+ 다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_ {X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고
49+ $$
50+ p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)]
51+ $$
52+ 이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다.
53+
54+ ---
55+
56+ 이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자.
57+ $$
58+ \begin{align}
59+ \mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) } \\
60+ &= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} }
61+ \end{align}
62+ $$
63+ 위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다.
64+ $$
65+ \begin{align}
66+ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\
67+ &= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)]
68+ \end{align}
69+ $$
70+ 이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[ f(X) + g(Y)] = \mathbb{E}[ f(X)] +\mathbb{E}[ g(Y)] $의 선형성을 띰을 알 수 있다.
71+
72+ ---
73+
74+ 결합확률분포는 또한 다음의 특징을 가진다.
75+ $$
76+ p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp Y
77+ $$
78+ $\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_ {1}: X\to \mathbb{R}, \phi_ {2}Y\to\mathbb{R}$인 두 함수 $\phi_ {1}, \phi_ {2}$에 대해
79+ $$
80+ p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y)
81+ $$
82+ 를 만족한다고 가정하자.
83+
84+ $X, Y$ 각각의 marginal을 조건부 확률로 나타내면,
85+ $$
86+ \begin{align}
87+ p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} = \phi_{1} (x) \cdot C_{Y} \\
88+ p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} = \phi_{2} (y) \cdot C_{X}
89+ \end{align}
90+ $$
91+ 이때, 전체 결합확률분포의 정규화 조건 $\sum_ {}^{}{p_ {X, Y}(x, y)}= 1$에 따라
92+ $$
93+ \sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)} \right) \cdot \left( \sum_{y}^{}{\phi_{2} (y)} \right) = C_{X} \cdot C_{Y} = 1
94+ $$
95+ $$
96+ \therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y)
97+ $$
98+ $X, Y$가 서로 독립임을 알 수 있다.
99+
38100### 2.4.1 Joint Entropy
39101
40102> 결합 엔트로피(Joint Entropy)란?
@@ -195,27 +257,27 @@ H(X) \ge H(f(X))
195257\]
196258이다.
197259
198- ** 증명.**
260+ ** 증명.**
199261\[
200262H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
201263\]
202264또한,
203265\[
204266H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
205267\]
206- 따라서 \( H(X) \ge H(f(X))\) 이다.
268+ 따라서 \( H(X) \ge H(f(X))\) 이다.
207269(\( f\) 가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \( H(X)=H(f(X))\) .)
208270
209271---
210272
211273## 정리 37 (Mutual information은 대칭적이다)
212274
213- ** 정리.**
275+ ** 정리.**
214276\[
215277I(X;Y) = I(Y;X)
216278\]
217279
218- ** 증명.**
280+ ** 증명.**
219281\[
220282\begin{aligned}
221283I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
@@ -229,12 +291,12 @@ I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
229291
230292## 정리 38 (Mutual information은 비음수이다)
231293
232- ** 정리.**
294+ ** 정리.**
233295\[
234296I(X;Y) \ge 0
235297\]
236298
237- ** 증명.**
299+ ** 증명.**
238300\[
239301\begin{aligned}
240302H(X) - H(X\mid Y)
@@ -245,8 +307,8 @@ H(X) - H(X\mid Y)
245307&= D\! \left(p* {X,Y} \,\|\, p* X p_Y\right) \ge 0 \tag{92}
246308\end{aligned}
247309\]
248- 따라서 \( I(X;Y) = D(p* {X,Y}\,\|\, p_X p_Y) \ge 0\) .
249- 여기서 \( p_X p_Y\) 는 \( X\) 와 \( Y\) 가 각각의 주변분포 \( p_X, p_Y\) 를 가지지만 서로 독립인 \( (X,Y)\) 에 대한 분포이다.
310+ 따라서 \( I(X;Y) = D(p* {X,Y}\,\|\, p_X p_Y) \ge 0\) .
311+ 여기서 \( p_X p_Y\) 는 \( X\) 와 \( Y\) 가 각각의 주변분포 \( p_X, p_Y\) 를 가지지만 서로 독립인 \( (X,Y)\) 에 대한 분포이다.
250312또한 부등식 \( H(X) \ge H(X\mid Y)\) 는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
251313
252314---
@@ -258,7 +320,7 @@ H(X) - H(X\mid Y)
258320I(X;Y) \ge I(f(X);Y)
259321\]
260322
261- ** 증명.**
323+ ** 증명.**
262324\[
263325\begin{aligned}
264326I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
@@ -268,7 +330,7 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
268330\end{aligned}
269331\]
270332
271- ** 일반화.**
333+ ** 일반화.**
272334\( X - Y - Z\) 가 마르코프 체인(또는 \( X\) 와 \( Z\) 가 \( Y\) 를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
273335
2743361 . \( X - Y - Z \iff X\) 와 \( Z\) 가 \( Y\) 를 주었을 때 독립이다. \( (X \perp Z \mid Y)\) \tag{97}
@@ -279,14 +341,14 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
279341
280342## 정리 40 (데이터 처리 부등식 III)
281343
282- ** 정리.**
344+ ** 정리.**
283345만약 \( X - Y - Z\) 가 마르코프 체인을 이룬다면,
284346\[
285347I(X;Z) \le I(Y;Z)
286348\]
287349또는 대칭적으로 \( I(Z;X) \le I(Z;Y)\) .
288350
289- ** 증명.**
351+ ** 증명.**
290352\[
291353\begin{aligned}
292354I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
@@ -303,7 +365,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
303365
304366## 문제 29.
305367
306- \( X, Y, Z\) 가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
368+ \( X, Y, Z\) 가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
307369** (b)** \( I(X, Y; Z) \ge I(X; Z)\) .
308370
309371## 풀이
@@ -314,12 +376,12 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
314376\[
315377I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
316378\]
317- 이는 “\( X, Y\) 가 합쳐질 때 \( Z\) 와 주고받는 정보량”을
379+ 이는 “\( X, Y\) 가 합쳐질 때 \( Z\) 와 주고받는 정보량”을
318380먼저 \( X\) 가 주는 정보량과, \( X\) 를 알고 난 뒤 \( Y\) 가 더 주는 추가 정보량으로 분해한 식이다.
319381
320382### 2. 조건부 상호 정보의 비음성
321383
322- 항상
384+ 항상
323385\[
324386I(Y; Z \mid X) \ge 0
325387\]
@@ -334,12 +396,12 @@ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
334396
335397### 4. 등호 성립 조건
336398
337- 등호 \( I(X, Y; Z) = I(X; Z)\) 가 되려면
399+ 등호 \( I(X, Y; Z) = I(X; Z)\) 가 되려면
338400\[
339401I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
340402\]
341- 이어야 한다.
342- 즉 “\( X\) 를 조건으로 두었을 때 \( Y\) 와 \( Z\) 가 독립”이어야 한다.
403+ 이어야 한다.
404+ 즉 “\( X\) 를 조건으로 두었을 때 \( Y\) 와 \( Z\) 가 독립”이어야 한다.
343405이 역시 \( Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
344406
345407---
@@ -373,15 +435,15 @@ H(X \mid g(Y)) = H(X \mid Y)
373435\[
374436H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
375437\]
376- 이다.
438+ 이다.
377439즉, “\( g(Y)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”이어야 한다.
378440
379441### 3. 마르코프 사슬 해석
380442
381443\[
382444I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
383445\]
384- 이는 바로
446+ 이는 바로
385447\[
386448X \longrightarrow g(Y) \longrightarrow Y
387449\]
@@ -390,11 +452,11 @@ X \longrightarrow g(Y) \longrightarrow Y
390452### 4. 특수 사례
391453
392454- \( g\) 가 일대일 대응(가역)이면 당연히 \( g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
393- - 또 \( X\) 와 \( Y\) 가 본래 독립이라도
455+ - 또 \( X\) 와 \( Y\) 가 본래 독립이라도
394456 \[
395457 H(X \mid g(Y)) = H(X) = H(X \mid Y)
396458 \]
397- 이므로 등호가 된다.
459+ 이므로 등호가 된다.
398460 이 두 경우는 포함되지만, ** 유일한 경우는 아닙니다.**
399461
400462---
@@ -403,7 +465,7 @@ X \longrightarrow g(Y) \longrightarrow Y
403465
404466## 문제 42.
405467
406- 다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
468+ 다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
407469** (b)** \( I(g(X); Y)\) vs. \( I(X; Y)\) .
408470
409471## 풀이
@@ -433,11 +495,11 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
433495
434496### 4. 등호 성립 조건
435497
436- 등호가 되려면
498+ 등호가 되려면
437499\[
438500H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
439501\]
440- 즉 “\( g(X)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”일 때 등호가 된다.
502+ 즉 “\( g(X)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”일 때 등호가 된다.
441503다시 말해 \( g(X)\) 를 기준으로 \( X\) 와 \( Y\) 는 더 이상의 상호 정보(조건부)가 없다.
442504
443505### 2.4.5 Conditional Mutual Information
@@ -587,11 +649,11 @@ i.i.d.가 아닌 경우 사용하는 모델들:
587649
588650### 2.5.1 What is Markovian?
589651
590- i.i.d. ←────────────|────────────→ Practical
652+ i.i.d. ←────────────|────────────→ Practical
591653** 1st-order Markov**
592654
593- ** 1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
594- "마르코프(Markov)"라는 말은 ** 1차 상관성(first-order correlation)** 이 있다는 의미입니다.
655+ ** 1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
656+ "마르코프(Markov)"라는 말은 ** 1차 상관성(first-order correlation)** 이 있다는 의미입니다.
595657즉, 현재 상태는 ** 직전 상태에만 의존** 하고, 그 이전의 상태에는 의존하지 않는다는 것입니다.
596658
597659---
629691- $X_ {102} = 50$
630692- $X_ {102} = 52$
631693
632- 추가로 $X_ {100} = 50$이라는 정보를 안다고 해도,
694+ 추가로 $X_ {100} = 50$이라는 정보를 안다고 해도,
633695$X_ {102}$가 어떻게 될지를 예측하는 데 ** 아무런 도움이 되지 않습니다.**
634696
635697이것은 ** 1차 마르코프 체인의 특성** 과 정확히 일치합니다:
@@ -651,9 +713,9 @@ $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지
651713
652714** 요약 구조**
653715
654- i.i.d. ←────────────|────────────→ 현실 데이터
655- ↑
656- 1st-order Markov
716+ i.i.d. ←────────────|────────────→ 현실 데이터
717+ ↑
718+ 1st-order Markov
657719 (현재 상태는 직전 상태에만 의존)
658720
659721### 2.5.2 1st Order Markov Process
0 commit comments