@@ -184,189 +184,235 @@ $H(Y4|Y1=1)$은 $3/4\log4/3+1/4\log4$이다.
184184
185185### 2.4.3 Mutual Information
186186
187+
187188### 2.4.4 Properties of Mutual Information
188- # 2.4.4 상호정보량의 성질
189189
190- ## 정리 36 (데이터 처리 부등식 I)
191- ** 정리.** f가 결정론적 함수라면,
192- H(X) ≥ H(f(X)) 이다.
190+ ### 정리 36 (데이터 처리 부등식 I)
191+ ** 정리.** \( f\) 가 결정론적 함수라면,
192+ \[
193+ H(X) \ge H(f(X))
194+ \]
195+ 이다.
193196
194197** 증명.**
195- H(X, f(X)) = H(X) + H(f(X) | X) = H(X) (식 80–81)
196- 또한
197- H(X, f(X)) = H(f(X)) + H(X | f(X)) ≥ H(f(X)) (식 82–83)
198- 따라서 H(X) ≥ H(f(X)).
199- (f가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 H(X) = H(f(X)).)
198+ \[
199+ H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X)
200+ \]
201+ 또한,
202+ \[
203+ H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X))
204+ \]
205+ 따라서 \( H(X) \ge H(f(X))\) 이다.
206+ (\( f\) 가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \( H(X)=H(f(X))\) .)
200207
201208---
202209
203- ## 정리 37 (Mutual information은 대칭적이다)
210+ ### 정리 37 (Mutual information은 대칭적이다)
204211** 정리.**
212+ \[
205213I(X;Y) = I(Y;X)
214+ \]
206215
207216** 증명.**
208- 위 정의들을 평문으로 쓰면 다음과 같다:
209- ```
210- I(X;Y) = H(X) - H(X | Y) (식 84)
211- = H(X) - (H(X,Y) - H(Y)) (식 85)
212- = H(X) + H(Y) - H(X,Y) (식 86)
213- = I(Y;X) (식 87)
214- ```
217+ \[
218+ \begin{aligned}
219+ I(X;Y) &= H(X) - H(X\mid Y) \\
220+ &= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \\
221+ &= H(X) + H(Y) - H(X,Y) \\
222+ &= I(Y;X)
223+ \end{aligned}
224+ \]
215225
216226---
217227
218- ## 정리 38 (Mutual information은 비음수이다)
228+ ### 정리 38 (Mutual information은 비음수이다)
219229** 정리.**
220- I(X;Y) ≥ 0
230+ \[
231+ I(X;Y) \ge 0
232+ \]
221233
222234** 증명.**
223- ```
224- H(X) - H(X | Y)
225- = E[ log(1 / p_X(X)) ] - E[ log(1 / p_{X|Y}(X | Y)) ] (식 88)
226- = E[ log( p_{X|Y}(X | Y) / p_X(X) ) ] (식 89)
227- = E[ log( p_{X,Y}(X,Y) / (p_X(X) p_Y(Y)) ) ] (식 90)
228- = sum_{x,y} p_{X,Y}(x,y) * log( p_{X,Y}(x,y) / (p_X(x) p_Y(y)) ) (식 91)
229- = D( p_{X,Y} || p_X p_Y ) ≥ 0 (식 92)
230- ```
231- 따라서 I(X;Y) = D( p_ {X,Y} || p_X p_Y ) ≥ 0.
232- 여기서 p_X p_Y는 X와 Y가 각각 주변분포 p_X, p_Y를 가지지만 서로 독립인 (X,Y)에 대한 분포이다.
233- 또한 부등식 H(X) ≥ H(X | Y)는 “조건부를 취하면 불확실성이 줄어들거나 유지된다”는 해석을 가질 수 있다.
235+ $$
236+ \begin{aligned}
237+ H(X) - H(X\mid Y)
238+ &= \mathbb{E}\left[\log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[\log \frac{1}{p_{X\mid Y}(X\mid Y)}\right] \\
239+ &= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \\
240+ &= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \\
241+ &= \sum_{x,y} p_{X,Y}(x,y) \log \frac{p_{X,Y}(x,y)}{p_X(x)p_Y(y)} \\
242+ &= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0
243+ \end{aligned}
244+ $$
245+ 따라서 \( I(X;Y) = D(p_ {X,Y}\,\|\, p_X p_Y) \ge 0\) .
246+ 여기서 \( p_X p_Y\) 는 \( X\) 와 \( Y\) 가 각각의 주변분포 \( p_X, p_Y\) 를 가지지만 서로 독립인 \( (X,Y)\) 에 대한 분포이다.
247+ 또한 부등식 \( H(X) \ge H(X\mid Y)\) 는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
234248
235249---
236250
237- ## 정리 39 (데이터 처리 부등식 II)
238- ** 정리.** 임의의 함수 f: X → R에 대해 다음이 성립한다:
239- I(X;Y) ≥ I(f(X);Y)
251+ ### 정리 39 (데이터 처리 부등식 II)
252+ ** 정리.** 임의의 함수 \( f: \mathcal{X} \to \mathbb{R}\) 에 대해 다음이 성립한다:
253+ \[
254+ I(X;Y) \ge I(f(X);Y)
255+ \]
240256
241257** 증명.**
242- ```
243- I(X;Y) = H(Y) - H(Y | X) (식 93)
244- = H(Y) - H(Y | X, f(X)) (식 94)
245- ≥ H(Y) - H(Y | f(X)) (식 95)
246- = I(f(X);Y) (식 96)
247- ```
258+ \[
259+ \begin{aligned}
260+ I(X;Y) &= H(Y) - H(Y\mid X) \\
261+ &= H(Y) - H(Y\mid X, f(X)) \\
262+ &\ge H(Y) - H(Y\mid f(X)) \\
263+ &= I(f(X);Y)
264+ \end{aligned}
265+ \]
248266
249267** 일반화.**
250- X - Y - Z가 마르코프 체인(또는 X와 Z가 Y를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
251-
252- 1 . X - Y - Z ⟷ X와 Z가 Y를 주었을 때 독립 (즉, X ⟂ Z | Y) (식 97)
253- 2 . Y가 알려져 있을 때 X는 Z를 추정하는 데 쓸모없다. (식 98)
254- 3 . 모든 x,y,z에 대해 p_ {Z|X,Y}(z | x,y) = p_ {Z|Y}(z | y). (식 99)
268+ \( X - Y - Z\) 가 마르코프 체인(또는 \( X\) 와 \( Z\) 가 \( Y\) 를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
269+ 1 . \( X - Y - Z \iff X\) 와 \( Z\) 가 \( Y\) 를 주었을 때 독립이다. \( (X \perp Z \mid Y)\)
270+ 2 . \( Y\) 가 알려져 있을 때 \( X\) 는 \( Z\) 를 추정하는 데 쓸모없다.
271+ 3 . 모든 \( x,y,z\) 에 대해 \( p_ {Z\mid X,Y}(z\mid x,y) = p_ {Z\mid Y}(z\mid y)\) .
255272
256273---
257274
258- ## 정리 40 (데이터 처리 부등식 III)
275+ ### 정리 40 (데이터 처리 부등식 III)
259276** 정리.**
260- 만약 X - Y - Z가 마르코프 체인을 이룬다면,
261- I(X;Z) ≤ I(Y;Z)
262- 또는 대칭적으로 I(Z;X) ≤ I(Z;Y).
277+ 만약 \( X - Y - Z\) 가 마르코프 체인을 이룬다면,
278+ \[
279+ I(X;Z) \le I(Y;Z)
280+ \]
281+ 또는 대칭적으로 \( I(Z;X) \le I(Z;Y)\) .
263282
264283** 증명.**
265- ```
266- I(Y;Z) = H(Z) - H(Z | Y) (식 100)
267- = H(Z) - H(Z | X, Y) (식 101)
268- ≥ H(Z) - H(Z | X) (식 102)
269- = I(X; Z) (식 103)
270- ```
271- 따라서 I(Y;Z) ≥ I(X;Z), 즉 I(Z;Y) ≥ I(Z;X)이다.
272-
273- ---
284+ \[
285+ \begin{aligned}
286+ I(Y;Z) & = H(Z) - H(Z\mid Y) \\
287+ &= H(Z) - H(Z\mid X, Y) \\
288+ &\ge H( Z) - H(Z\mid X) \\
289+ &= I(X;Z)
290+ \end{aligned}
291+ \]
292+ 따라서 \( I(Y;Z) \ge I(X;Z) \) , 즉 \( I(Z;Y) \ge I(Z;X) \) 이다.
274293
275- # 문제 29.(b)
294+ ### 문제 29.(b)
276295
277- ## 문제 29.
278- X, Y, Z가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
279- ** (b)** I(X, Y; Z) ≥ I(X; Z).
296+ \( X, Y, Z\) 가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
297+ ** (b)** \( I(X, Y; Z) \ge I(X; Z)\) .
280298
281- ## 풀이
299+ ### 풀이
282300
283- ### 1. 체인 룰(chain rule) 적용
284- 상호 정보의 체인 룰에 따르면:
285- I(X, Y; Z) = I(X; Z) + I(Y; Z | X).
286- 이는 “X, Y가 합쳐질 때 Z와 주고받는 정보량”을 먼저 X가 주는 정보량과, X를 알고 난 뒤 Y가 더 주는 추가 정보량으로 분해한 식이다.
301+ #### 1. 체인 룰(chain rule) 적용
302+ 상호 정보의 체인 룰에 따르면:
303+ \[
304+ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
305+ \]
306+ 이는 “\( X, Y\) 가 합쳐질 때 \( Z\) 와 주고받는 정보량”을
307+ 먼저 \( X\) 가 주는 정보량과, \( X\) 를 알고 난 뒤 \( Y\) 가 더 주는 추가 정보량으로 분해한 식이다.
287308
288- ### 2. 조건부 상호 정보의 비음성
309+ #### 2. 조건부 상호 정보의 비음성
289310항상
290- I(Y; Z | X) ≥ 0
311+ \[
312+ I(Y; Z \mid X) \ge 0
313+ \]
291314이다. (KL 발산 형태로 증명할 수 있다.)
292315
293- ### 3. 부등식 결론
294- 따라서
295- I(X, Y; Z) = I(X; Z) + I(Y; Z | X) ≥ I(X; Z).
296-
297- ### 4. 등호 성립 조건
298- 등호 I(X, Y; Z) = I(X; Z)가 되려면
299- I(Y; Z | X) = 0 ⟷ Y ⟂ Z | X
316+ #### 3. 부등식 결론
317+ 따라서
318+ \[
319+ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
320+ \]
321+
322+ #### 4. 등호 성립 조건
323+ 등호 \( I(X, Y; Z) = I(X; Z)\) 가 되려면
324+ \[
325+ I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
326+ \]
300327이어야 한다.
301- 즉 “X를 조건으로 두었을 때 Y와 Z가 독립”이어야 한다.
302- 이 역시 Y → X → Z 형태의 마르코프 사슬과 동치이다.
328+ 즉 “\( X \) 를 조건으로 두었을 때 \( Y \) 와 \( Z \) 가 독립”이어야 한다.
329+ 이 역시 \( Y \to X \to Z \) 형태의 마르코프 사슬과 동치이다.
303330
304331---
305332
306- # 문제 31
307-
308- ## 문제 31.
309- 임의의 결정론적 함수 g에 대하여,
310- H(X | g(Y)) = H(X | Y)
333+ ### 문제 31.
334+ 임의의 결정론적 함수 \( g \) 에 대하여,
335+ \[
336+ H(X \mid g(Y)) = H(X \mid Y)
337+ \]
311338이 성립하려면 어떤 조건이 필요한가?
312339
313- ## 풀이
314-
315- ### 1. 데이터 처리 부등식 I (조건부 형태)
316- 이미 알고 있는 바:
317- H(X | g(Y)) ≥ H(X | Y),
318- 왜냐하면 “Y를 알면 g(Y)를 알 수 있지만, g(Y)를 안다고 해서 항상 Y가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
319-
320- ### 2. 등호 조건 분석
321- H(X | g(Y)) = H(X | Y) 일 때, 양쪽 사이에 끼어 있는
322- H(X | Y) - H(X | g(Y)) = I(X;Y | g(Y)) = 0
340+ ### 풀이
341+
342+ #### 1. 데이터 처리 부등식 I (조건부 형태)
343+ 이미 알고 있는 바:
344+ \[
345+ H(X \mid g(Y)) \ge H(X \mid Y),
346+ \]
347+ 왜냐하면 “\( Y\) 를 알면 \( g(Y)\) 를 알 수 있지만, \( g(Y)\) 를 안다고 해서 항상 \( Y\) 가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
348+
349+ #### 2. 등호 조건 분석
350+ \[
351+ H(X \mid g(Y)) = H(X \mid Y)
352+ \]
353+ 일 때, 양쪽 사이에 끼어 있는
354+ \[
355+ H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
356+ \]
323357이다.
324- 즉, “g(Y)를 조건으로 X와 Y가 독립”이어야 한다.
358+ 즉, “\( g(Y)\) 를 조건으로 \( X \) 와 \( Y \) 가 독립”이어야 한다.
325359
326- ### 3. 마르코프 사슬 해석
327- I(X;Y | g(Y)) = 0 ⟷ X ⟂ Y | g(Y).
360+ #### 3. 마르코프 사슬 해석
361+ \[
362+ I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
363+ \]
328364이는 바로
329- X → g(Y) → Y
365+ \[
366+ X \longrightarrow g(Y) \longrightarrow Y
367+ \]
330368꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
331369
332- ### 4. 특수 사례
333- - g가 일대일 대응(가역)이면 당연히 g(Y) ↔ Y 양방향 복원이 가능하므로 등호 성립.
334- - 또 X와 Y가 본래 독립이라도
335- H(X | g(Y)) = H(X) = H(X | Y)
370+ #### 4. 특수 사례
371+ - \( g\) 가 일대일 대응(가역)이면 당연히 \( g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
372+ - 또 \( X\) 와 \( Y\) 가 본래 독립이라도
373+ \[
374+ H(X \mid g(Y)) = H(X) = H(X \mid Y)
375+ \]
336376 이므로 등호가 된다.
337- 이 두 경우는 포함되지만, ** 유일한 경우는 아니다 .**
377+ 이 두 경우는 포함되지만, ** 유일한 경우는 아닙니다 .**
338378
339379---
340380
341- # 문제 42.(b)
381+ ### 문제 42.(b)
342382
343- ## 문제 42.
344- 다음 부등식들 중 일반적으로 ≥, =, ≤ 중 어느 관계가 성립하는지 각각 표시하라.
345- ** (b)** I(g(X); Y) vs. I(X; Y).
383+ 다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
384+ ** (b)** \( I(g(X); Y)\) vs. \( I(X; Y)\) .
346385
347- ## 풀이
386+ ### 풀이
348387
349- ### 1. 데이터 처리 부등식 II
350- 이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 g에 대하여:
351- I(g(X); Y) ≤ I(X; Y).
388+ #### 1. 데이터 처리 부등식 II
389+ 이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 \( g\) 에 대하여:
390+ \[
391+ I(g(X); Y) \le I(X; Y).
392+ \]
352393
353- ### 2. 직관
354- - X가 Y에 갖는 정보량이 I(X;Y)이고,
355- - X를 g로 가공한 g(X)는 X보다 “덜 상세”(또는 같음) →
356- - g(X)가 Y에 제공할 수 있는 정보도 당연히 I(X;Y) 이하여야 한다.
394+ #### 2. 직관
395+ - \( X \) 가 \( Y \) 에 갖는 정보량이 \( I(X;Y) \ ) 이고,
396+ - \( X \) 를 \( g \) 로 가공한 \( g(X)\) 는 \( X \) 보다 “덜 상세”(또는 같음) →
397+ - \( g(X)\) 가 \( Y \) 에 제공할 수 있는 정보도 당연히 \( I(X;Y) \ ) 이하여야 한다.
357398
358- ### 3. 형식적 증명
359- ```
360- I(g(X); Y) = H(Y) - H(Y | g(X))
361- ≤ H(Y) - H(Y | X) (조건부 엔트로피 감소: H(Y | g(X)) ≥ H(Y | X))
362- = I(X; Y)
363- ```
399+ #### 3. 형식적 증명
400+ \[
401+ \begin{aligned}
402+ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
403+ &\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
404+ &= I(X; Y).
405+ \end{aligned}
406+ \]
364407
365- ### 4. 등호 성립 조건
408+ #### 4. 등호 성립 조건
366409등호가 되려면
367- H(Y | g(X)) = H(Y | X) ⟷ I(Y; X | g(X)) = 0 ⟷ Y ⟂ X | g(X).
368- 즉 “g(X)를 조건으로 X와 Y가 독립”일 때 등호가 된다.
369- 다시 말해 g(X)를 기준으로 X와 Y는 더 이상의 조건부 상호 정보가 없다.
410+ \[
411+ H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
412+ \]
413+ 즉 “\( g(X)\) 를 조건으로 \( X\) 와 \( Y\) 가 독립”일 때 등호가 된다.
414+ 다시 말해 \( g(X)\) 를 기준으로 \( X\) 와 \( Y\) 는 더 이상의 상호 정보(조건부)가 없다.
415+
370416
371417### 2.4.5 Conditional Mutual Information
372418
0 commit comments