Skip to content

Commit 6d05cd5

Browse files
최호영최호영
authored andcommitted
update feature/4.0 contents
1 parent cec8bb1 commit 6d05cd5

1 file changed

Lines changed: 94 additions & 32 deletions

File tree

_posts/2025-08-04-02.Information-Theory.md

Lines changed: 94 additions & 32 deletions
Original file line numberDiff line numberDiff line change
@@ -35,6 +35,68 @@ long contents .....
3535

3636
## 2.4 Jointly Distributed Random Variables
3737

38+
두 개의 확률변수 $X \in \mathcal{X},\ Y \in \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다.
39+
$$
40+
p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y]
41+
$$
42+
이 결합확률분포의 확률밀도함수 $p_{X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다.
43+
44+
이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다.
45+
$$
46+
p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)}
47+
$$
48+
다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고
49+
$$
50+
p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)]
51+
$$
52+
이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다.
53+
54+
---
55+
56+
이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자.
57+
$$
58+
\begin{align}
59+
\mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) } \\
60+
&= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} }
61+
\end{align}
62+
$$
63+
위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다.
64+
$$
65+
\begin{align}
66+
\sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\
67+
&= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)]
68+
\end{align}
69+
$$
70+
이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[f(X) + g(Y)] = \mathbb{E}[f(X)]+\mathbb{E}[g(Y)]$의 선형성을 띰을 알 수 있다.
71+
72+
---
73+
74+
결합확률분포는 또한 다음의 특징을 가진다.
75+
$$
76+
p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp Y
77+
$$
78+
$\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_{1}: X\to \mathbb{R}, \phi_{2}Y\to\mathbb{R}$인 두 함수 $\phi_{1}, \phi_{2}$에 대해
79+
$$
80+
p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y)
81+
$$
82+
를 만족한다고 가정하자.
83+
84+
$X, Y$ 각각의 marginal을 조건부 확률로 나타내면,
85+
$$
86+
\begin{align}
87+
p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} = \phi_{1} (x) \cdot C_{Y} \\
88+
p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} = \phi_{2} (y) \cdot C_{X}
89+
\end{align}
90+
$$
91+
이때, 전체 결합확률분포의 정규화 조건 $\sum_{}^{}{p_{X, Y}(x, y)}= 1$에 따라
92+
$$
93+
\sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)} \right) \cdot \left( \sum_{y}^{}{\phi_{2} (y)} \right) = C_{X} \cdot C_{Y} = 1
94+
$$
95+
$$
96+
\therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y)
97+
$$
98+
$X, Y$가 서로 독립임을 알 수 있다.
99+
38100
### 2.4.1 Joint Entropy
39101

40102
> 결합 엔트로피(Joint Entropy)란?
@@ -195,27 +257,27 @@ H(X) \ge H(f(X))
195257
\]
196258
이다.
197259

198-
**증명.**
260+
**증명.**
199261
\[
200262
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
201263
\]
202264
또한,
203265
\[
204266
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
205267
\]
206-
따라서 \(H(X) \ge H(f(X))\)이다.
268+
따라서 \(H(X) \ge H(f(X))\)이다.
207269
(\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).)
208270

209271
---
210272

211273
## 정리 37 (Mutual information은 대칭적이다)
212274

213-
**정리.**
275+
**정리.**
214276
\[
215277
I(X;Y) = I(Y;X)
216278
\]
217279

218-
**증명.**
280+
**증명.**
219281
\[
220282
\begin{aligned}
221283
I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
@@ -229,12 +291,12 @@ I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
229291

230292
## 정리 38 (Mutual information은 비음수이다)
231293

232-
**정리.**
294+
**정리.**
233295
\[
234296
I(X;Y) \ge 0
235297
\]
236298

237-
**증명.**
299+
**증명.**
238300
\[
239301
\begin{aligned}
240302
H(X) - H(X\mid Y)
@@ -245,8 +307,8 @@ H(X) - H(X\mid Y)
245307
&= D\!\left(p*{X,Y} \,\|\, p*X p_Y\right) \ge 0 \tag{92}
246308
\end{aligned}
247309
\]
248-
따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).
249-
여기서 \(p_X p_Y\)\(X\)\(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
310+
따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).
311+
여기서 \(p_X p_Y\)\(X\)\(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
250312
또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
251313

252314
---
@@ -258,7 +320,7 @@ H(X) - H(X\mid Y)
258320
I(X;Y) \ge I(f(X);Y)
259321
\]
260322

261-
**증명.**
323+
**증명.**
262324
\[
263325
\begin{aligned}
264326
I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
@@ -268,7 +330,7 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
268330
\end{aligned}
269331
\]
270332

271-
**일반화.**
333+
**일반화.**
272334
\(X - Y - Z\)가 마르코프 체인(또는 \(X\)\(Z\)\(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
273335

274336
1. \(X - Y - Z \iff X\)\(Z\)\(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\) \tag{97}
@@ -279,14 +341,14 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
279341

280342
## 정리 40 (데이터 처리 부등식 III)
281343

282-
**정리.**
344+
**정리.**
283345
만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면,
284346
\[
285347
I(X;Z) \le I(Y;Z)
286348
\]
287349
또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\).
288350

289-
**증명.**
351+
**증명.**
290352
\[
291353
\begin{aligned}
292354
I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
@@ -303,7 +365,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
303365

304366
## 문제 29.
305367

306-
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
368+
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
307369
**(b)** \(I(X, Y; Z) \ge I(X; Z)\).
308370

309371
## 풀이
@@ -314,12 +376,12 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
314376
\[
315377
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
316378
\]
317-
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
379+
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
318380
먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다.
319381

320382
### 2. 조건부 상호 정보의 비음성
321383

322-
항상
384+
항상
323385
\[
324386
I(Y; Z \mid X) \ge 0
325387
\]
@@ -334,12 +396,12 @@ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
334396

335397
### 4. 등호 성립 조건
336398

337-
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
399+
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
338400
\[
339401
I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
340402
\]
341-
이어야 한다.
342-
즉 “\(X\)를 조건으로 두었을 때 \(Y\)\(Z\)가 독립”이어야 한다.
403+
이어야 한다.
404+
즉 “\(X\)를 조건으로 두었을 때 \(Y\)\(Z\)가 독립”이어야 한다.
343405
이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
344406

345407
---
@@ -373,15 +435,15 @@ H(X \mid g(Y)) = H(X \mid Y)
373435
\[
374436
H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
375437
\]
376-
이다.
438+
이다.
377439
즉, “\(g(Y)\)를 조건으로 \(X\)\(Y\)가 독립”이어야 한다.
378440

379441
### 3. 마르코프 사슬 해석
380442

381443
\[
382444
I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
383445
\]
384-
이는 바로
446+
이는 바로
385447
\[
386448
X \longrightarrow g(Y) \longrightarrow Y
387449
\]
@@ -390,11 +452,11 @@ X \longrightarrow g(Y) \longrightarrow Y
390452
### 4. 특수 사례
391453

392454
- \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
393-
-\(X\)\(Y\)가 본래 독립이라도
455+
-\(X\)\(Y\)가 본래 독립이라도
394456
\[
395457
H(X \mid g(Y)) = H(X) = H(X \mid Y)
396458
\]
397-
이므로 등호가 된다.
459+
이므로 등호가 된다.
398460
이 두 경우는 포함되지만, **유일한 경우는 아닙니다.**
399461

400462
---
@@ -403,7 +465,7 @@ X \longrightarrow g(Y) \longrightarrow Y
403465

404466
## 문제 42.
405467

406-
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
468+
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
407469
**(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\).
408470

409471
## 풀이
@@ -433,11 +495,11 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
433495

434496
### 4. 등호 성립 조건
435497

436-
등호가 되려면
498+
등호가 되려면
437499
\[
438500
H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
439501
\]
440-
즉 “\(g(X)\)를 조건으로 \(X\)\(Y\)가 독립”일 때 등호가 된다.
502+
즉 “\(g(X)\)를 조건으로 \(X\)\(Y\)가 독립”일 때 등호가 된다.
441503
다시 말해 \(g(X)\)를 기준으로 \(X\)\(Y\)는 더 이상의 상호 정보(조건부)가 없다.
442504

443505
### 2.4.5 Conditional Mutual Information
@@ -587,11 +649,11 @@ i.i.d.가 아닌 경우 사용하는 모델들:
587649

588650
### 2.5.1 What is Markovian?
589651

590-
i.i.d. ←────────────|────────────→ Practical
652+
i.i.d. ←────────────|────────────→ Practical
591653
**1st-order Markov**
592654

593-
**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
594-
"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다.
655+
**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
656+
"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다.
595657
즉, 현재 상태는 **직전 상태에만 의존**하고, 그 이전의 상태에는 의존하지 않는다는 것입니다.
596658

597659
---
@@ -629,7 +691,7 @@ $$
629691
- $X_{102} = 50$
630692
- $X_{102} = 52$
631693

632-
추가로 $X_{100} = 50$이라는 정보를 안다고 해도,
694+
추가로 $X_{100} = 50$이라는 정보를 안다고 해도,
633695
$X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지 않습니다.**
634696

635697
이것은 **1차 마르코프 체인의 특성**과 정확히 일치합니다:
@@ -651,9 +713,9 @@ $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지
651713

652714
**요약 구조**
653715

654-
i.i.d. ←────────────|────────────→ 현실 데이터
655-
          ↑
656-
        1st-order Markov
716+
i.i.d. ←────────────|────────────→ 현실 데이터
717+
          ↑
718+
        1st-order Markov
657719
   (현재 상태는 직전 상태에만 의존)
658720

659721
### 2.5.2 1st Order Markov Process

0 commit comments

Comments
 (0)