@@ -188,236 +188,185 @@ $H(Y4|Y1=1)$은 $3/4\log4/3+1/4\log4$이다.
188188# 2.4.4 상호정보량의 성질
189189
190190## 정리 36 (데이터 처리 부등식 I)
191- ** 정리.** \( f\) 가 결정론적 함수라면,
192- \[
193- H(X) \ge H(f(X))
194- \]
195- 이다.
191+ ** 정리.** f가 결정론적 함수라면,
192+ H(X) ≥ H(f(X)) 이다.
196193
197194** 증명.**
198- \[
199- H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
200- \]
201- 또한,
202- \[
203- H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
204- \]
205- 따라서 \( H(X) \ge H(f(X))\) 이다.
206- (\( f\) 가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \( H(X)=H(f(X))\) .)
195+ H(X, f(X)) = H(X) + H(f(X) | X) = H(X) (식 80–81)
196+ 또한
197+ H(X, f(X)) = H(f(X)) + H(X | f(X)) ≥ H(f(X)) (식 82–83)
198+ 따라서 H(X) ≥ H(f(X)).
199+ (f가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 H(X) = H(f(X)).)
207200
208201---
209202
210203## 정리 37 (Mutual information은 대칭적이다)
211204** 정리.**
212- \[
213205I(X;Y) = I(Y;X)
214- \]
215206
216207** 증명.**
217- \[
218- \begin{aligned}
219- I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
220- &= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \tag{85} \\
221- &= H(X) + H(Y) - H(X,Y) \tag{86} \\
222- &= I(Y;X) \tag{87}
223- \end{aligned}
224- \]
208+ 위 정의들을 평문으로 쓰면 다음과 같다:
209+ ```
210+ I(X;Y) = H(X) - H(X | Y) (식 84)
211+ = H(X) - (H(X,Y) - H(Y)) (식 85)
212+ = H(X) + H(Y) - H(X,Y) (식 86)
213+ = I(Y;X) (식 87)
214+ ```
225215
226216---
227217
228218## 정리 38 (Mutual information은 비음수이다)
229219** 정리.**
230- \[
231- I(X;Y) \ge 0
232- \]
220+ I(X;Y) ≥ 0
233221
234222** 증명.**
235- \[
236- \begin{aligned}
237- H(X) - H(X\mid Y)
238- &= \mathbb{E}\left[ \log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[ \log \frac{1}{p_ {X\mid Y}(X\mid Y)}\right] \tag{88} \\
239- &= \mathbb{E}\left[ \log \frac{p_ {X\mid Y}(X\mid Y)}{p_X(X)}\right] \tag{89} \\
240- &= \mathbb{E}\left[ \log \frac{p_ {X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \tag{90} \\
241- &= \sum_ {x,y} p_ {X,Y}(x,y) \log \frac{p_ {X,Y}(x,y)}{p_X(x)p_Y(y)} \tag{91} \\
242- &= D\! \left(p_ {X,Y} \,\|\, p_X p_Y\right) \ge 0 \tag{92}
243- \end{aligned}
244- \]
245- 따라서 \( I(X;Y) = D(p_ {X,Y}\,\|\, p_X p_Y) \ge 0\) .
246- 여기서 \( p_X p_Y\) 는 \( X\) 와 \( Y\) 가 각각의 주변분포 \( p_X, p_Y\) 를 가지지만 서로 독립인 \( (X,Y)\) 에 대한 분포이다.
247- 또한 부등식 \( H(X) \ge H(X\mid Y)\) 는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
223+ ```
224+ H(X) - H(X | Y)
225+ = E[ log(1 / p_X(X)) ] - E[ log(1 / p_{X|Y}(X | Y)) ] (식 88)
226+ = E[ log( p_{X|Y}(X | Y) / p_X(X) ) ] (식 89)
227+ = E[ log( p_{X,Y}(X,Y) / (p_X(X) p_Y(Y)) ) ] (식 90)
228+ = sum_{x,y} p_{X,Y}(x,y) * log( p_{X,Y}(x,y) / (p_X(x) p_Y(y)) ) (식 91)
229+ = D( p_{X,Y} || p_X p_Y ) ≥ 0 (식 92)
230+ ```
231+ 따라서 I(X;Y) = D( p_ {X,Y} || p_X p_Y ) ≥ 0.
232+ 여기서 p_X p_Y는 X와 Y가 각각 주변분포 p_X, p_Y를 가지지만 서로 독립인 (X,Y)에 대한 분포이다.
233+ 또한 부등식 H(X) ≥ H(X | Y)는 “조건부를 취하면 불확실성이 줄어들거나 유지된다”는 해석을 가질 수 있다.
248234
249235---
250236
251237## 정리 39 (데이터 처리 부등식 II)
252- ** 정리.** 임의의 함수 \( f: \mathcal{X} \to \mathbb{R}\) 에 대해 다음이 성립한다:
253- \[
254- I(X;Y) \ge I(f(X);Y)
255- \]
238+ ** 정리.** 임의의 함수 f: X → R에 대해 다음이 성립한다:
239+ I(X;Y) ≥ I(f(X);Y)
256240
257241** 증명.**
258- \[
259- \begin{aligned}
260- I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
261- &= H(Y) - H(Y\mid X, f(X)) \tag{94} \\
262- &\ge H(Y) - H(Y\mid f(X)) \tag{95} \\
263- &= I(f(X);Y) \tag{96}
264- \end{aligned}
265- \]
242+ ```
243+ I(X;Y) = H(Y) - H(Y | X) (식 93)
244+ = H(Y) - H(Y | X, f(X)) (식 94)
245+ ≥ H(Y) - H(Y | f(X)) (식 95)
246+ = I(f(X);Y) (식 96)
247+ ```
266248
267249** 일반화.**
268- \( X - Y - Z\) 가 마르코프 체인(또는 \( X\) 와 \( Z\) 가 \( Y\) 를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
269- 1 . \( X - Y - Z \iff X\) 와 \( Z\) 가 \( Y\) 를 주었을 때 독립이다. \( (X \perp Z \mid Y)\) \tag{97}
270- 2 . \( Y\) 가 알려져 있을 때 \( X\) 는 \( Z\) 를 추정하는 데 쓸모없다. \tag{98}
271- 3 . 모든 \( x,y,z\) 에 대해 \( p_ {Z\mid X,Y}(z\mid x,y) = p_ {Z\mid Y}(z\mid y)\) . \tag{99}
250+ X - Y - Z가 마르코프 체인(또는 X와 Z가 Y를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
251+
252+ 1 . X - Y - Z ⟷ X와 Z가 Y를 주었을 때 독립 (즉, X ⟂ Z | Y) (식 97)
253+ 2 . Y가 알려져 있을 때 X는 Z를 추정하는 데 쓸모없다. (식 98)
254+ 3 . 모든 x,y,z에 대해 p_ {Z|X,Y}(z | x,y) = p_ {Z|Y}(z | y). (식 99)
272255
273256---
274257
275258## 정리 40 (데이터 처리 부등식 III)
276259** 정리.**
277- 만약 \( X - Y - Z\) 가 마르코프 체인을 이룬다면,
278- \[
279- I(X;Z) \le I(Y;Z)
280- \]
281- 또는 대칭적으로 \( I(Z;X) \le I(Z;Y)\) .
260+ 만약 X - Y - Z가 마르코프 체인을 이룬다면,
261+ I(X;Z) ≤ I(Y;Z)
262+ 또는 대칭적으로 I(Z;X) ≤ I(Z;Y).
282263
283264** 증명.**
284- \[
285- \begin{aligned}
286- I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
287- &= H(Z) - H(Z\mid X, Y) \tag{101} \\
288- &\ge H(Z) - H(Z\mid X) \tag{102} \\
289- &= I(X;Z) \tag{103}
290- \end{aligned}
291- \]
292- 따라서 \( I(Y;Z) \ge I(X;Z)\) , 즉 \( I(Z;Y) \ge I(Z;X)\) 이다.
265+ ```
266+ I(Y;Z) = H(Z) - H(Z | Y) (식 100)
267+ = H(Z) - H(Z | X, Y) (식 101)
268+ ≥ H(Z) - H(Z | X) (식 102)
269+ = I(X;Z) (식 103)
270+ ```
271+ 따라서 I(Y;Z) ≥ I(X;Z), 즉 I(Z;Y) ≥ I(Z;X)이다.
293272
294273---
295274
296275# 문제 29.(b)
297276
298277## 문제 29.
299- \( X, Y, Z \) 가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
300- ** (b)** \( I(X, Y; Z) \ge I(X; Z) \ ) .
278+ X, Y, Z가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
279+ ** (b)** I(X, Y; Z) ≥ I(X; Z).
301280
302281## 풀이
303282
304283### 1. 체인 룰(chain rule) 적용
305- 상호 정보의 체인 룰에 따르면:
306- \[
307- I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
308- \]
309- 이는 “\( X, Y\) 가 합쳐질 때 \( Z\) 와 주고받는 정보량”을
310- 먼저 \( X\) 가 주는 정보량과, \( X\) 를 알고 난 뒤 \( Y\) 가 더 주는 추가 정보량으로 분해한 식이다.
284+ 상호 정보의 체인 룰에 따르면:
285+ I(X, Y; Z) = I(X; Z) + I(Y; Z | X).
286+ 이는 “X, Y가 합쳐질 때 Z와 주고받는 정보량”을 먼저 X가 주는 정보량과, X를 알고 난 뒤 Y가 더 주는 추가 정보량으로 분해한 식이다.
311287
312288### 2. 조건부 상호 정보의 비음성
313289항상
314- \[
315- I(Y; Z \mid X) \ge 0
316- \]
290+ I(Y; Z | X) ≥ 0
317291이다. (KL 발산 형태로 증명할 수 있다.)
318292
319293### 3. 부등식 결론
320- 따라서
321- \[
322- I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
323- \]
294+ 따라서
295+ I(X, Y; Z) = I(X; Z) + I(Y; Z | X) ≥ I(X; Z).
324296
325297### 4. 등호 성립 조건
326- 등호 \( I(X, Y; Z) = I(X; Z)\) 가 되려면
327- \[
328- I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
329- \]
298+ 등호 I(X, Y; Z) = I(X; Z)가 되려면
299+ I(Y; Z | X) = 0 ⟷ Y ⟂ Z | X
330300이어야 한다.
331- 즉 “\( X \) 를 조건으로 두었을 때 \( Y \) 와 \( Z \) 가 독립”이어야 한다.
332- 이 역시 \( Y \to X \to Z \) 형태의 마르코프 사슬과 동치이다.
301+ 즉 “X를 조건으로 두었을 때 Y와 Z가 독립”이어야 한다.
302+ 이 역시 Y → X → Z 형태의 마르코프 사슬과 동치이다.
333303
334304---
335305
336306# 문제 31
337307
338308## 문제 31.
339- 임의의 결정론적 함수 \( g\) 에 대하여,
340- \[
341- H(X \mid g(Y)) = H(X \mid Y)
342- \]
309+ 임의의 결정론적 함수 g에 대하여,
310+ H(X | g(Y)) = H(X | Y)
343311이 성립하려면 어떤 조건이 필요한가?
344312
345313## 풀이
346314
347315### 1. 데이터 처리 부등식 I (조건부 형태)
348- 이미 알고 있는 바:
349- \[
350- H(X \mid g(Y)) \ge H(X \mid Y),
351- \]
352- 왜냐하면 “\( Y\) 를 알면 \( g(Y)\) 를 알 수 있지만, \( g(Y)\) 를 안다고 해서 항상 \( Y\) 가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
316+ 이미 알고 있는 바:
317+ H(X | g(Y)) ≥ H(X | Y),
318+ 왜냐하면 “Y를 알면 g(Y)를 알 수 있지만, g(Y)를 안다고 해서 항상 Y가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
353319
354320### 2. 등호 조건 분석
355- \[
356- H(X \mid g(Y)) = H(X \mid Y)
357- \]
358- 일 때, 양쪽 사이에 끼어 있는
359- \[
360- H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
361- \]
321+ H(X | g(Y)) = H(X | Y) 일 때, 양쪽 사이에 끼어 있는
322+ H(X | Y) - H(X | g(Y)) = I(X;Y | g(Y)) = 0
362323이다.
363- 즉, “\( g(Y)\) 를 조건으로 \( X \) 와 \( Y \) 가 독립”이어야 한다.
324+ 즉, “g(Y)를 조건으로 X와 Y가 독립”이어야 한다.
364325
365326### 3. 마르코프 사슬 해석
366- \[
367- I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
368- \]
327+ I(X;Y | g(Y)) = 0 ⟷ X ⟂ Y | g(Y).
369328이는 바로
370- \[
371- X \longrightarrow g(Y) \longrightarrow Y
372- \]
329+ X → g(Y) → Y
373330꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
374331
375- ### 4. 특수 사례
376- - \( g\) 가 일대일 대응(가역)이면 당연히 \( g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
377- - 또 \( X\) 와 \( Y\) 가 본래 독립이라도
378- \[
379- H(X \mid g(Y)) = H(X) = H(X \mid Y)
380- \]
332+ ### 4. 특수 사례
333+ - g가 일대일 대응(가역)이면 당연히 g(Y) ↔ Y 양방향 복원이 가능하므로 등호 성립.
334+ - 또 X와 Y가 본래 독립이라도
335+ H(X | g(Y)) = H(X) = H(X | Y)
381336 이므로 등호가 된다.
382- 이 두 경우는 포함되지만, ** 유일한 경우는 아닙니다 .**
337+ 이 두 경우는 포함되지만, ** 유일한 경우는 아니다 .**
383338
384339---
385340
386341# 문제 42.(b)
387342
388343## 문제 42.
389- 다음 부등식들 중 일반적으로 \( \ge , =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
390- ** (b)** \( I(g(X); Y)\) vs. \( I(X; Y) \ ) .
344+ 다음 부등식들 중 일반적으로 ≥ , =, ≤ 중 어느 관계가 성립하는지 각각 표시하라.
345+ ** (b)** I(g(X); Y) vs. I(X; Y).
391346
392347## 풀이
393348
394349### 1. 데이터 처리 부등식 II
395- 이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 \( g\) 에 대하여:
396- \[
397- I(g(X); Y) \le I(X; Y).
398- \]
350+ 이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 g에 대하여:
351+ I(g(X); Y) ≤ I(X; Y).
399352
400353### 2. 직관
401- - \( X \) 가 \( Y \) 에 갖는 정보량이 \( I(X;Y) \ ) 이고,
402- - \( X \) 를 \( g \) 로 가공한 \( g(X)\) 는 \( X \) 보다 “덜 상세”(또는 같음) →
403- - \( g(X)\) 가 \( Y \) 에 제공할 수 있는 정보도 당연히 \( I(X;Y) \ ) 이하여야 한다.
354+ - X가 Y에 갖는 정보량이 I(X;Y)이고,
355+ - X를 g로 가공한 g(X)는 X보다 “덜 상세”(또는 같음) →
356+ - g(X)가 Y에 제공할 수 있는 정보도 당연히 I(X;Y) 이하여야 한다.
404357
405358### 3. 형식적 증명
406- \[
407- \begin{aligned}
408- I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
409- &\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
410- &= I(X; Y).
411- \end{aligned}
412- \]
359+ ```
360+ I(g(X); Y) = H(Y) - H(Y | g(X))
361+ ≤ H(Y) - H(Y | X) (조건부 엔트로피 감소: H(Y | g(X)) ≥ H(Y | X))
362+ = I(X; Y)
363+ ```
413364
414365### 4. 등호 성립 조건
415366등호가 되려면
416- \[
417- H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
418- \]
419- 즉 “\( g(X)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”일 때 등호가 된다.
420- 다시 말해 \( g(X)\) 를 기준으로 \( X\) 와 \( Y\) 는 더 이상의 상호 정보(조건부)가 없다.
367+ H(Y | g(X)) = H(Y | X) ⟷ I(Y; X | g(X)) = 0 ⟷ Y ⟂ X | g(X).
368+ 즉 “g(X)를 조건으로 X와 Y가 독립”일 때 등호가 된다.
369+ 다시 말해 g(X)를 기준으로 X와 Y는 더 이상의 조건부 상호 정보가 없다.
421370
422371### 2.4.5 Conditional Mutual Information
423372
0 commit comments