Skip to content

Commit 96f7d9e

Browse files
committed
Retry fixing font corruption
1 parent 9bf5d9f commit 96f7d9e

1 file changed

Lines changed: 169 additions & 123 deletions

File tree

_posts/2019-04-29-license.md

Lines changed: 169 additions & 123 deletions
Original file line numberDiff line numberDiff line change
@@ -184,189 +184,235 @@ $H(Y4|Y1=1)$은 $3/4\log4/3+1/4\log4$이다.
184184

185185
### 2.4.3 Mutual Information
186186

187+
187188
### 2.4.4 Properties of Mutual Information
188-
# 2.4.4 상호정보량의 성질
189189

190-
## 정리 36 (데이터 처리 부등식 I)
191-
**정리.** f가 결정론적 함수라면,
192-
H(X) ≥ H(f(X)) 이다.
190+
### 정리 36 (데이터 처리 부등식 I)
191+
**정리.** \(f\)가 결정론적 함수라면,
192+
\[
193+
H(X) \ge H(f(X))
194+
\]
195+
이다.
193196

194197
**증명.**
195-
H(X, f(X)) = H(X) + H(f(X) | X) = H(X) (식 80–81)
196-
또한
197-
H(X, f(X)) = H(f(X)) + H(X | f(X)) ≥ H(f(X)) (식 82–83)
198-
따라서 H(X) ≥ H(f(X)).
199-
(f가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 H(X) = H(f(X)).)
198+
\[
199+
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X)
200+
\]
201+
또한,
202+
\[
203+
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X))
204+
\]
205+
따라서 \(H(X) \ge H(f(X))\)이다.
206+
(\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).)
200207

201208
---
202209

203-
## 정리 37 (Mutual information은 대칭적이다)
210+
### 정리 37 (Mutual information은 대칭적이다)
204211
**정리.**
212+
\[
205213
I(X;Y) = I(Y;X)
214+
\]
206215

207216
**증명.**
208-
위 정의들을 평문으로 쓰면 다음과 같다:
209-
```
210-
I(X;Y) = H(X) - H(X | Y) (식 84)
211-
= H(X) - (H(X,Y) - H(Y)) (식 85)
212-
= H(X) + H(Y) - H(X,Y) (식 86)
213-
= I(Y;X) (식 87)
214-
```
217+
\[
218+
\begin{aligned}
219+
I(X;Y) &= H(X) - H(X\mid Y) \\
220+
&= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \\
221+
&= H(X) + H(Y) - H(X,Y) \\
222+
&= I(Y;X)
223+
\end{aligned}
224+
\]
215225

216226
---
217227

218-
## 정리 38 (Mutual information은 비음수이다)
228+
### 정리 38 (Mutual information은 비음수이다)
219229
**정리.**
220-
I(X;Y) ≥ 0
230+
\[
231+
I(X;Y) \ge 0
232+
\]
221233

222234
**증명.**
223-
```
224-
H(X) - H(X | Y)
225-
= E[ log(1 / p_X(X)) ] - E[ log(1 / p_{X|Y}(X | Y)) ] (식 88)
226-
= E[ log( p_{X|Y}(X | Y) / p_X(X) ) ] (식 89)
227-
= E[ log( p_{X,Y}(X,Y) / (p_X(X) p_Y(Y)) ) ] (식 90)
228-
= sum_{x,y} p_{X,Y}(x,y) * log( p_{X,Y}(x,y) / (p_X(x) p_Y(y)) ) (식 91)
229-
= D( p_{X,Y} || p_X p_Y ) ≥ 0 (식 92)
230-
```
231-
따라서 I(X;Y) = D( p_{X,Y} || p_X p_Y ) ≥ 0.
232-
여기서 p_X p_Y는 X와 Y가 각각 주변분포 p_X, p_Y를 가지지만 서로 독립인 (X,Y)에 대한 분포이다.
233-
또한 부등식 H(X) ≥ H(X | Y)는 “조건부를 취하면 불확실성이 줄어들거나 유지된다”는 해석을 가질 수 있다.
235+
$$
236+
\begin{aligned}
237+
H(X) - H(X\mid Y)
238+
&= \mathbb{E}\left[\log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[\log \frac{1}{p_{X\mid Y}(X\mid Y)}\right] \\
239+
&= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \\
240+
&= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \\
241+
&= \sum_{x,y} p_{X,Y}(x,y) \log \frac{p_{X,Y}(x,y)}{p_X(x)p_Y(y)} \\
242+
&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0
243+
\end{aligned}
244+
$$
245+
따라서 \(I(X;Y) = D(p_{X,Y}\,\|\,p_X p_Y) \ge 0\).
246+
여기서 \(p_X p_Y\)\(X\)\(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
247+
또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
234248

235249
---
236250

237-
## 정리 39 (데이터 처리 부등식 II)
238-
**정리.** 임의의 함수 f: X → R에 대해 다음이 성립한다:
239-
I(X;Y) ≥ I(f(X);Y)
251+
### 정리 39 (데이터 처리 부등식 II)
252+
**정리.** 임의의 함수 \(f: \mathcal{X} \to \mathbb{R}\)에 대해 다음이 성립한다:
253+
\[
254+
I(X;Y) \ge I(f(X);Y)
255+
\]
240256

241257
**증명.**
242-
```
243-
I(X;Y) = H(Y) - H(Y | X) (식 93)
244-
= H(Y) - H(Y | X, f(X)) (식 94)
245-
≥ H(Y) - H(Y | f(X)) (식 95)
246-
= I(f(X);Y) (식 96)
247-
```
258+
\[
259+
\begin{aligned}
260+
I(X;Y) &= H(Y) - H(Y\mid X) \\
261+
&= H(Y) - H(Y\mid X, f(X)) \\
262+
&\ge H(Y) - H(Y\mid f(X)) \\
263+
&= I(f(X);Y)
264+
\end{aligned}
265+
\]
248266

249267
**일반화.**
250-
X - Y - Z가 마르코프 체인(또는 X와 Z가 Y를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
251-
252-
1. X - Y - Z ⟷ X와 Z가 Y를 주었을 때 독립 (즉, X ⟂ Z | Y) (식 97)
253-
2. Y가 알려져 있을 때 X는 Z를 추정하는 데 쓸모없다. (식 98)
254-
3. 모든 x,y,z에 대해 p_{Z|X,Y}(z | x,y) = p_{Z|Y}(z | y). (식 99)
268+
\(X - Y - Z\)가 마르코프 체인(또는 \(X\)\(Z\)\(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
269+
1. \(X - Y - Z \iff X\)\(Z\)\(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\)
270+
2. \(Y\)가 알려져 있을 때 \(X\)\(Z\)를 추정하는 데 쓸모없다.
271+
3. 모든 \(x,y,z\)에 대해 \(p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)\).
255272

256273
---
257274

258-
## 정리 40 (데이터 처리 부등식 III)
275+
### 정리 40 (데이터 처리 부등식 III)
259276
**정리.**
260-
만약 X - Y - Z가 마르코프 체인을 이룬다면,
261-
I(X;Z) ≤ I(Y;Z)
262-
또는 대칭적으로 I(Z;X) ≤ I(Z;Y).
277+
만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면,
278+
\[
279+
I(X;Z) \le I(Y;Z)
280+
\]
281+
또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\).
263282

264283
**증명.**
265-
```
266-
I(Y;Z) = H(Z) - H(Z | Y) (식 100)
267-
= H(Z) - H(Z | X, Y) (식 101)
268-
H(Z) - H(Z | X) (식 102)
269-
= I(X;Z) (식 103)
270-
```
271-
따라서 I(Y;Z) ≥ I(X;Z), 즉 I(Z;Y) ≥ I(Z;X)이다.
272-
273-
---
284+
\[
285+
\begin{aligned}
286+
I(Y;Z) &= H(Z) - H(Z\mid Y) \\
287+
&= H(Z) - H(Z\mid X, Y) \\
288+
&\ge H(Z) - H(Z\mid X) \\
289+
&= I(X;Z)
290+
\end{aligned}
291+
\]
292+
따라서 \(I(Y;Z) \ge I(X;Z)\), 즉 \(I(Z;Y) \ge I(Z;X)\)이다.
274293

275-
# 문제 29.(b)
294+
### 문제 29.(b)
276295

277-
## 문제 29.
278-
X, Y, Z가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
279-
**(b)** I(X, Y; Z) ≥ I(X; Z).
296+
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
297+
**(b)** \(I(X, Y; Z) \ge I(X; Z)\).
280298

281-
## 풀이
299+
### 풀이
282300

283-
### 1. 체인 룰(chain rule) 적용
284-
상호 정보의 체인 룰에 따르면:
285-
I(X, Y; Z) = I(X; Z) + I(Y; Z | X).
286-
이는 “X, Y가 합쳐질 때 Z와 주고받는 정보량”을 먼저 X가 주는 정보량과, X를 알고 난 뒤 Y가 더 주는 추가 정보량으로 분해한 식이다.
301+
#### 1. 체인 룰(chain rule) 적용
302+
상호 정보의 체인 룰에 따르면:
303+
\[
304+
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
305+
\]
306+
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
307+
먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다.
287308

288-
### 2. 조건부 상호 정보의 비음성
309+
#### 2. 조건부 상호 정보의 비음성
289310
항상
290-
I(Y; Z | X) ≥ 0
311+
\[
312+
I(Y; Z \mid X) \ge 0
313+
\]
291314
이다. (KL 발산 형태로 증명할 수 있다.)
292315

293-
### 3. 부등식 결론
294-
따라서
295-
I(X, Y; Z) = I(X; Z) + I(Y; Z | X) ≥ I(X; Z).
296-
297-
### 4. 등호 성립 조건
298-
등호 I(X, Y; Z) = I(X; Z)가 되려면
299-
I(Y; Z | X) = 0 ⟷ Y ⟂ Z | X
316+
#### 3. 부등식 결론
317+
따라서
318+
\[
319+
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
320+
\]
321+
322+
#### 4. 등호 성립 조건
323+
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
324+
\[
325+
I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
326+
\]
300327
이어야 한다.
301-
즉 “X를 조건으로 두었을 때 Y와 Z가 독립”이어야 한다.
302-
이 역시 Y → X → Z 형태의 마르코프 사슬과 동치이다.
328+
즉 “\(X\) 조건으로 두었을 때 \(Y\)\(Z\) 독립”이어야 한다.
329+
이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
303330

304331
---
305332

306-
# 문제 31
307-
308-
## 문제 31.
309-
임의의 결정론적 함수 g에 대하여,
310-
H(X | g(Y)) = H(X | Y)
333+
### 문제 31.
334+
임의의 결정론적 함수 \(g\)에 대하여,
335+
\[
336+
H(X \mid g(Y)) = H(X \mid Y)
337+
\]
311338
이 성립하려면 어떤 조건이 필요한가?
312339

313-
## 풀이
314-
315-
### 1. 데이터 처리 부등식 I (조건부 형태)
316-
이미 알고 있는 바:
317-
H(X | g(Y)) ≥ H(X | Y),
318-
왜냐하면 “Y를 알면 g(Y)를 알 수 있지만, g(Y)를 안다고 해서 항상 Y가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
319-
320-
### 2. 등호 조건 분석
321-
H(X | g(Y)) = H(X | Y) 일 때, 양쪽 사이에 끼어 있는
322-
H(X | Y) - H(X | g(Y)) = I(X;Y | g(Y)) = 0
340+
### 풀이
341+
342+
#### 1. 데이터 처리 부등식 I (조건부 형태)
343+
이미 알고 있는 바:
344+
\[
345+
H(X \mid g(Y)) \ge H(X \mid Y),
346+
\]
347+
왜냐하면 “\(Y\)를 알면 \(g(Y)\)를 알 수 있지만, \(g(Y)\)를 안다고 해서 항상 \(Y\)가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
348+
349+
#### 2. 등호 조건 분석
350+
\[
351+
H(X \mid g(Y)) = H(X \mid Y)
352+
\]
353+
일 때, 양쪽 사이에 끼어 있는
354+
\[
355+
H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
356+
\]
323357
이다.
324-
즉, “g(Y)를 조건으로 X와 Y가 독립”이어야 한다.
358+
즉, “\(g(Y)\)를 조건으로 \(X\)\(Y\) 독립”이어야 한다.
325359

326-
### 3. 마르코프 사슬 해석
327-
I(X;Y | g(Y)) = 0 ⟷ X ⟂ Y | g(Y).
360+
#### 3. 마르코프 사슬 해석
361+
\[
362+
I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
363+
\]
328364
이는 바로
329-
X → g(Y) → Y
365+
\[
366+
X \longrightarrow g(Y) \longrightarrow Y
367+
\]
330368
꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
331369

332-
### 4. 특수 사례
333-
- g가 일대일 대응(가역)이면 당연히 g(Y) ↔ Y 양방향 복원이 가능하므로 등호 성립.
334-
- 또 X와 Y가 본래 독립이라도
335-
H(X | g(Y)) = H(X) = H(X | Y)
370+
#### 4. 특수 사례
371+
- \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
372+
-\(X\)\(Y\)가 본래 독립이라도
373+
\[
374+
H(X \mid g(Y)) = H(X) = H(X \mid Y)
375+
\]
336376
이므로 등호가 된다.
337-
이 두 경우는 포함되지만, **유일한 경우는 아니다.**
377+
이 두 경우는 포함되지만, **유일한 경우는 아닙니다.**
338378

339379
---
340380

341-
# 문제 42.(b)
381+
### 문제 42.(b)
342382

343-
## 문제 42.
344-
다음 부등식들 중 일반적으로 ≥, =, ≤ 중 어느 관계가 성립하는지 각각 표시하라.
345-
**(b)** I(g(X); Y) vs. I(X; Y).
383+
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
384+
**(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\).
346385

347-
## 풀이
386+
### 풀이
348387

349-
### 1. 데이터 처리 부등식 II
350-
이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 g에 대하여:
351-
I(g(X); Y) ≤ I(X; Y).
388+
#### 1. 데이터 처리 부등식 II
389+
이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 \(g\)에 대하여:
390+
\[
391+
I(g(X); Y) \le I(X; Y).
392+
\]
352393

353-
### 2. 직관
354-
- X가 Y에 갖는 정보량이 I(X;Y)이고,
355-
- X를 g로 가공한 g(X)는 X보다 “덜 상세”(또는 같음) →
356-
- g(X)가 Y에 제공할 수 있는 정보도 당연히 I(X;Y) 이하여야 한다.
394+
#### 2. 직관
395+
- \(X\)\(Y\) 갖는 정보량이 \(I(X;Y)\)이고,
396+
- \(X\)\(g\) 가공한 \(g(X)\)\(X\)보다 “덜 상세”(또는 같음) →
397+
- \(g(X)\)\(Y\) 제공할 수 있는 정보도 당연히 \(I(X;Y)\) 이하여야 한다.
357398

358-
### 3. 형식적 증명
359-
```
360-
I(g(X); Y) = H(Y) - H(Y | g(X))
361-
≤ H(Y) - H(Y | X) (조건부 엔트로피 감소: H(Y | g(X)) ≥ H(Y | X))
362-
= I(X; Y)
363-
```
399+
#### 3. 형식적 증명
400+
\[
401+
\begin{aligned}
402+
I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
403+
&\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
404+
&= I(X; Y).
405+
\end{aligned}
406+
\]
364407

365-
### 4. 등호 성립 조건
408+
#### 4. 등호 성립 조건
366409
등호가 되려면
367-
H(Y | g(X)) = H(Y | X) ⟷ I(Y; X | g(X)) = 0 ⟷ Y ⟂ X | g(X).
368-
즉 “g(X)를 조건으로 X와 Y가 독립”일 때 등호가 된다.
369-
다시 말해 g(X)를 기준으로 X와 Y는 더 이상의 조건부 상호 정보가 없다.
410+
\[
411+
H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
412+
\]
413+
즉 “\(g(X)\)를 조건으로 \(X\)\(Y\)가 독립”일 때 등호가 된다.
414+
다시 말해 \(g(X)\)를 기준으로 \(X\)\(Y\)는 더 이상의 상호 정보(조건부)가 없다.
415+
370416

371417
### 2.4.5 Conditional Mutual Information
372418

0 commit comments

Comments
 (0)