@@ -247,259 +247,230 @@ $H(Y4|Y1=1)$은 $3/4\log4/3+1/4\log4$이다.
247247
248248### 2.4.4 Properties of Mutual Information
249249
250- # 2.4.4 상호정보량의 성질
251-
252- ## 정리 36 (데이터 처리 부등식 I)
253-
250+ ** 정리 36 (데이터 처리 부등식 I)**
254251** 정리.** \( f\) 가 결정론적 함수라면,
255252\[
256253H(X) \ge H(f(X))
257254\]
258255이다.
259256
260- ** 증명.**
257+ ** 증명.**
261258\[
262- H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
259+ H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X)
263260\]
264261또한,
265262\[
266- H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
263+ H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X))
267264\]
268- 따라서 \( H(X) \ge H(f(X))\) 이다.
265+ 따라서 \( H(X) \ge H(f(X))\) 이다.
269266(\( f\) 가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \( H(X)=H(f(X))\) .)
270267
271268---
272269
273- ## 정리 37 (Mutual information은 대칭적이다)
274-
275- ** 정리.**
270+ ** 정리 37 (Mutual information은 대칭적이다)**
271+ ** 정리.**
276272\[
277273I(X;Y) = I(Y;X)
278274\]
279275
280- ** 증명.**
276+ ** 증명.**
281277\[
282278\begin{aligned}
283- I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \ \
284- &= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \tag{85} \\
285- &= H(X) + H(Y) - H(X,Y) \tag{86} \\
286- &= I(Y;X) \tag{87}
279+ I(X;Y) &= H(X) - H(X\mid Y) \\
280+ &= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \\
281+ &= H(X) + H(Y) - H(X,Y) \\
282+ &= I(Y;X)
287283\end{aligned}
288284\]
289285
290286---
291287
292- ## 정리 38 (Mutual information은 비음수이다)
293-
294- ** 정리.**
288+ ** 정리 38 (Mutual information은 비음수이다)**
289+ ** 정리.**
295290\[
296291I(X;Y) \ge 0
297292\]
298293
299- ** 증명.**
300- \[
294+ ** 증명.**
295+ $$
301296\begin{aligned}
302297H(X) - H(X\mid Y)
303- &= \mathbb{E}\left[ \log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[ \log \frac{1}{p_ {X\mid Y}(X\mid Y)}\right] \tag{88} \ \
304- &= \mathbb{E}\left[ \log \frac{p_ {X\mid Y}(X\mid Y)}{p_X(X)}\right] \tag{89} \ \
305- &= \mathbb{E}\left[ \log \frac{p_ {X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \tag{90} \ \
306- &= \sum * {x,y} p * {X,Y}(x,y) \log \frac{p * {X,Y}(x,y)}{p_X(x)p_Y(y)} \tag{91 } \\
307- &= D\! \left(p * {X,Y} \,\|\, p * X p_Y\right) \ge 0 \tag{92}
298+ &= \mathbb{E}\left[\log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[\log \frac{1}{p_{X\mid Y}(X\mid Y)}\right] \\
299+ &= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \\
300+ &= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \\
301+ &= \sum_ {x,y} p_ {X,Y}(x,y) \log \frac{p_ {X,Y}(x,y)}{p_X(x)p_Y(y)} \\
302+ &= D\!\left(p_ {X,Y} \,\|\, p_X p_Y\right) \ge 0
308303\end{aligned}
309- \]
310- 따라서 \( I(X;Y) = D(p * {X,Y}\,\|\, p_X p_Y) \ge 0\) .
311- 여기서 \( p_X p_Y\) 는 \( X\) 와 \( Y\) 가 각각의 주변분포 \( p_X, p_Y\) 를 가지지만 서로 독립인 \( (X,Y)\) 에 대한 분포이다.
304+ $$
305+ 따라서 \( I(X;Y) = D(p _ {X,Y}\,\|\, p_X p_Y) \ge 0\) .
306+ 여기서 \( p_X p_Y\) 는 \( X\) 와 \( Y\) 가 각각의 주변분포 \( p_X, p_Y\) 를 가지지만 서로 독립인 \( (X,Y)\) 에 대한 분포이다.
312307또한 부등식 \( H(X) \ge H(X\mid Y)\) 는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
313308
314309---
315310
316- ## 정리 39 (데이터 처리 부등식 II)
317-
311+ ** 정리 39 (데이터 처리 부등식 II)**
318312** 정리.** 임의의 함수 \( f: \mathcal{X} \to \mathbb{R}\) 에 대해 다음이 성립한다:
319313\[
320314I(X;Y) \ge I(f(X);Y)
321315\]
322316
323- ** 증명.**
317+ ** 증명.**
324318\[
325319\begin{aligned}
326- I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \ \
327- &= H(Y) - H(Y\mid X, f(X)) \tag{94} \\
328- &\ge H(Y) - H(Y\mid f(X)) \tag{95} \\
329- &= I(f(X);Y) \tag{96}
320+ I(X;Y) &= H(Y) - H(Y\mid X) \\
321+ &= H(Y) - H(Y\mid X, f(X)) \\
322+ &\ge H(Y) - H(Y\mid f(X)) \\
323+ &= I(f(X);Y)
330324\end{aligned}
331325\]
332326
333- ** 일반화.**
327+ ** 일반화.**
334328\( X - Y - Z\) 가 마르코프 체인(또는 \( X\) 와 \( Z\) 가 \( Y\) 를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
335-
336- 1 . \( X - Y - Z \iff X\) 와 \( Z\) 가 \( Y\) 를 주었을 때 독립이다. \( (X \perp Z \mid Y)\) \tag{97}
337- 2 . \( Y\) 가 알려져 있을 때 \( X\) 는 \( Z\) 를 추정하는 데 쓸모없다. \tag{98}
338- 3 . 모든 \( x,y,z\) 에 대해 \( p* {Z\mid X,Y}(z\mid x,y) = p* {Z\mid Y}(z\mid y)\) . \tag{99}
329+ 1 . \( X - Y - Z \iff X\) 와 \( Z\) 가 \( Y\) 를 주었을 때 독립이다. \( (X \perp Z \mid Y)\)
330+ 2 . \( Y\) 가 알려져 있을 때 \( X\) 는 \( Z\) 를 추정하는 데 쓸모없다.
331+ 3 . 모든 \( x,y,z\) 에 대해 \( p_ {Z\mid X,Y}(z\mid x,y) = p_ {Z\mid Y}(z\mid y)\) .
339332
340333---
341334
342- ## 정리 40 (데이터 처리 부등식 III)
343-
344- ** 정리.**
335+ ** 정리 40 (데이터 처리 부등식 III)**
336+ ** 정리.**
345337만약 \( X - Y - Z\) 가 마르코프 체인을 이룬다면,
346338\[
347339I(X;Z) \le I(Y;Z)
348340\]
349341또는 대칭적으로 \( I(Z;X) \le I(Z;Y)\) .
350342
351- ** 증명.**
343+ ** 증명.**
352344\[
353345\begin{aligned}
354- I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \ \
355- &= H(Z) - H(Z\mid X, Y) \tag{101} \\
356- &\ge H(Z) - H(Z\mid X) \tag{102} \\
357- &= I(X;Z) \tag{103}
346+ I(Y;Z) &= H(Z) - H(Z\mid Y) \\
347+ &= H(Z) - H(Z\mid X, Y) \\
348+ &\ge H(Z) - H(Z\mid X) \\
349+ &= I(X;Z)
358350\end{aligned}
359351\]
360352따라서 \( I(Y;Z) \ge I(X;Z)\) , 즉 \( I(Z;Y) \ge I(Z;X)\) 이다.
361353
362- ---
354+ ** 문제 29.(b) **
363355
364- # 문제 29.(b)
365-
366- ## 문제 29.
367-
368- \( X, Y, Z\) 가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
356+ \( X, Y, Z\) 가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
369357** (b)** \( I(X, Y; Z) \ge I(X; Z)\) .
370358
371- ## 풀이
372-
373- ### 1. 체인 룰(chain rule) 적용
359+ ** 풀이**
374360
361+ ** 1. 체인 룰(chain rule) 적용**
375362상호 정보의 체인 룰에 따르면:
376363\[
377364I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
378365\]
379- 이는 “\( X, Y\) 가 합쳐질 때 \( Z\) 와 주고받는 정보량”을
366+ 이는 “\( X, Y\) 가 합쳐질 때 \( Z\) 와 주고받는 정보량”을
380367먼저 \( X\) 가 주는 정보량과, \( X\) 를 알고 난 뒤 \( Y\) 가 더 주는 추가 정보량으로 분해한 식이다.
381368
382- ### 2. 조건부 상호 정보의 비음성
383-
384- 항상
369+ ** 2. 조건부 상호 정보의 비음성**
370+ 항상
385371\[
386372I(Y; Z \mid X) \ge 0
387373\]
388374이다. (KL 발산 형태로 증명할 수 있다.)
389375
390- ### 3. 부등식 결론
391-
376+ ** 3. 부등식 결론**
392377따라서
393378\[
394379I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
395380\]
396381
397- ### 4. 등호 성립 조건
398-
399- 등호 \( I(X, Y; Z) = I(X; Z)\) 가 되려면
382+ ** 4. 등호 성립 조건**
383+ 등호 \( I(X, Y; Z) = I(X; Z)\) 가 되려면
400384\[
401385I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
402386\]
403- 이어야 한다.
404- 즉 “\( X\) 를 조건으로 두었을 때 \( Y\) 와 \( Z\) 가 독립”이어야 한다.
387+ 이어야 한다.
388+ 즉 “\( X\) 를 조건으로 두었을 때 \( Y\) 와 \( Z\) 가 독립”이어야 한다.
405389이 역시 \( Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
406390
407391---
408392
409- # 문제 31
410-
411- ## 문제 31.
412-
393+ ** 문제 31.**
413394임의의 결정론적 함수 \( g\) 에 대하여,
414395\[
415396H(X \mid g(Y)) = H(X \mid Y)
416397\]
417398이 성립하려면 어떤 조건이 필요한가?
418399
419- ## 풀이
420-
421- ### 1. 데이터 처리 부등식 I (조건부 형태)
400+ ** 풀이**
422401
402+ ** 1. 데이터 처리 부등식 I (조건부 형태)**
423403이미 알고 있는 바:
424404\[
425405H(X \mid g(Y)) \ge H(X \mid Y),
426406\]
427407왜냐하면 “\( Y\) 를 알면 \( g(Y)\) 를 알 수 있지만, \( g(Y)\) 를 안다고 해서 항상 \( Y\) 가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
428408
429- ### 2. 등호 조건 분석
430-
409+ ** 2. 등호 조건 분석**
431410\[
432411H(X \mid g(Y)) = H(X \mid Y)
433412\]
434413일 때, 양쪽 사이에 끼어 있는
435414\[
436415H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
437416\]
438- 이다.
417+ 이다.
439418즉, “\( g(Y)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”이어야 한다.
440419
441- ### 3. 마르코프 사슬 해석
442-
420+ ** 3. 마르코프 사슬 해석**
443421\[
444422I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
445423\]
446- 이는 바로
424+ 이는 바로
447425\[
448426X \longrightarrow g(Y) \longrightarrow Y
449427\]
450428꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
451429
452- ### 4. 특수 사례
453-
454- - \( g\) 가 일대일 대응(가역)이면 당연히 \( g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
455- - 또 \( X\) 와 \( Y\) 가 본래 독립이라도
430+ ** 4. 특수 사례**
431+ - \( g\) 가 일대일 대응(가역)이면 당연히 \( g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
432+ - 또 \( X\) 와 \( Y\) 가 본래 독립이라도
456433 \[
457434 H(X \mid g(Y)) = H(X) = H(X \mid Y)
458435 \]
459- 이므로 등호가 된다.
460- 이 두 경우는 포함되지만, ** 유일한 경우는 아닙니다. **
436+ 이므로 등호가 된다.
437+ 이 두 경우는 포함되지만, 유일한 경우는 아니다.
461438
462439---
463440
464- # 문제 42.(b)
441+ ** 문제 42.(b)**
465442
466- ## 문제 42.
467-
468- 다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
443+ 다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
469444** (b)** \( I(g(X); Y)\) vs. \( I(X; Y)\) .
470445
471- ## 풀이
472-
473- ### 1. 데이터 처리 부등식 II
446+ ** 풀이**
474447
448+ ** 1. 데이터 처리 부등식 II**
475449이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 \( g\) 에 대하여:
476450\[
477451I(g(X); Y) \le I(X; Y).
478452\]
479453
480- ### 2. 직관
481-
482- - \( X\) 가 \( Y\) 에 갖는 정보량이 \( I(X;Y)\) 이고,
483- - \( X\) 를 \( g\) 로 가공한 \( g(X)\) 는 \( X\) 보다 “덜 상세”(또는 같음) →
454+ ** 2. 직관**
455+ - \( X\) 가 \( Y\) 에 갖는 정보량이 \( I(X;Y)\) 이고,
456+ - \( X\) 를 \( g\) 로 가공한 \( g(X)\) 는 \( X\) 보다 “덜 상세”(또는 같음) →
484457- \( g(X)\) 가 \( Y\) 에 제공할 수 있는 정보도 당연히 \( I(X;Y)\) 이하여야 한다.
485458
486- ### 3. 형식적 증명
487-
459+ ** 3. 형식적 증명**
488460\[
489461\begin{aligned}
490462I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
491- &\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
492- &= I(X; Y).
463+ &\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
464+ &= I(X; Y).
493465\end{aligned}
494466\]
495467
496- ### 4. 등호 성립 조건
497-
498- 등호가 되려면
468+ ** 4. 등호 성립 조건**
469+ 등호가 되려면
499470\[
500471H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
501472\]
502- 즉 “\( g(X)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”일 때 등호가 된다.
473+ 즉 “\( g(X)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”일 때 등호가 된다.
503474다시 말해 \( g(X)\) 를 기준으로 \( X\) 와 \( Y\) 는 더 이상의 상호 정보(조건부)가 없다.
504475
505476### 2.4.5 Conditional Mutual Information
0 commit comments