Skip to content

Commit 89e673a

Browse files
committed
Insert * instead of #
1 parent f16cb64 commit 89e673a

1 file changed

Lines changed: 78 additions & 107 deletions

File tree

_posts/2025-08-04-02.Information-Theory.md

Lines changed: 78 additions & 107 deletions
Original file line numberDiff line numberDiff line change
@@ -247,259 +247,230 @@ $H(Y4|Y1=1)$은 $3/4\log4/3+1/4\log4$이다.
247247

248248
### 2.4.4 Properties of Mutual Information
249249

250-
# 2.4.4 상호정보량의 성질
251-
252-
## 정리 36 (데이터 처리 부등식 I)
253-
250+
**정리 36 (데이터 처리 부등식 I)**
254251
**정리.** \(f\)가 결정론적 함수라면,
255252
\[
256253
H(X) \ge H(f(X))
257254
\]
258255
이다.
259256

260-
**증명.**
257+
**증명.**
261258
\[
262-
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
259+
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X)
263260
\]
264261
또한,
265262
\[
266-
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
263+
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X))
267264
\]
268-
따라서 \(H(X) \ge H(f(X))\)이다.
265+
따라서 \(H(X) \ge H(f(X))\)이다.
269266
(\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).)
270267

271268
---
272269

273-
## 정리 37 (Mutual information은 대칭적이다)
274-
275-
**정리.**
270+
**정리 37 (Mutual information은 대칭적이다)**
271+
**정리.**
276272
\[
277273
I(X;Y) = I(Y;X)
278274
\]
279275

280-
**증명.**
276+
**증명.**
281277
\[
282278
\begin{aligned}
283-
I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
284-
&= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \tag{85} \\
285-
&= H(X) + H(Y) - H(X,Y) \tag{86} \\
286-
&= I(Y;X) \tag{87}
279+
I(X;Y) &= H(X) - H(X\mid Y) \\
280+
&= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \\
281+
&= H(X) + H(Y) - H(X,Y) \\
282+
&= I(Y;X)
287283
\end{aligned}
288284
\]
289285

290286
---
291287

292-
## 정리 38 (Mutual information은 비음수이다)
293-
294-
**정리.**
288+
**정리 38 (Mutual information은 비음수이다)**
289+
**정리.**
295290
\[
296291
I(X;Y) \ge 0
297292
\]
298293

299-
**증명.**
300-
\[
294+
**증명.**
295+
$$
301296
\begin{aligned}
302297
H(X) - H(X\mid Y)
303-
&= \mathbb{E}\left[\log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[\log \frac{1}{p_{X\mid Y}(X\mid Y)}\right] \tag{88} \\
304-
&= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \tag{89} \\
305-
&= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \tag{90} \\
306-
&= \sum*{x,y} p*{X,Y}(x,y) \log \frac{p*{X,Y}(x,y)}{p_X(x)p_Y(y)} \tag{91} \\
307-
&= D\!\left(p*{X,Y} \,\|\, p*X p_Y\right) \ge 0 \tag{92}
298+
&= \mathbb{E}\left[\log \frac{1}{p_X(X)}\right] - \mathbb{E}\left[\log \frac{1}{p_{X\mid Y}(X\mid Y)}\right] \\
299+
&= \mathbb{E}\left[\log \frac{p_{X\mid Y}(X\mid Y)}{p_X(X)}\right] \\
300+
&= \mathbb{E}\left[\log \frac{p_{X,Y}(X,Y)}{p_X(X)p_Y(Y)}\right] \\
301+
&= \sum_{x,y} p_{X,Y}(x,y) \log \frac{p_{X,Y}(x,y)}{p_X(x)p_Y(y)} \\
302+
&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0
308303
\end{aligned}
309-
\]
310-
따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).
311-
여기서 \(p_X p_Y\)\(X\)\(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
304+
$$
305+
따라서 \(I(X;Y) = D(p_{X,Y}\,\|\,p_X p_Y) \ge 0\).
306+
여기서 \(p_X p_Y\)\(X\)\(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
312307
또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
313308

314309
---
315310

316-
## 정리 39 (데이터 처리 부등식 II)
317-
311+
**정리 39 (데이터 처리 부등식 II)**
318312
**정리.** 임의의 함수 \(f: \mathcal{X} \to \mathbb{R}\)에 대해 다음이 성립한다:
319313
\[
320314
I(X;Y) \ge I(f(X);Y)
321315
\]
322316

323-
**증명.**
317+
**증명.**
324318
\[
325319
\begin{aligned}
326-
I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
327-
&= H(Y) - H(Y\mid X, f(X)) \tag{94} \\
328-
&\ge H(Y) - H(Y\mid f(X)) \tag{95} \\
329-
&= I(f(X);Y) \tag{96}
320+
I(X;Y) &= H(Y) - H(Y\mid X) \\
321+
&= H(Y) - H(Y\mid X, f(X)) \\
322+
&\ge H(Y) - H(Y\mid f(X)) \\
323+
&= I(f(X);Y)
330324
\end{aligned}
331325
\]
332326

333-
**일반화.**
327+
**일반화.**
334328
\(X - Y - Z\)가 마르코프 체인(또는 \(X\)\(Z\)\(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
335-
336-
1. \(X - Y - Z \iff X\)\(Z\)\(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\) \tag{97}
337-
2. \(Y\)가 알려져 있을 때 \(X\)\(Z\)를 추정하는 데 쓸모없다. \tag{98}
338-
3. 모든 \(x,y,z\)에 대해 \(p*{Z\mid X,Y}(z\mid x,y) = p*{Z\mid Y}(z\mid y)\). \tag{99}
329+
1. \(X - Y - Z \iff X\)\(Z\)\(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\)
330+
2. \(Y\)가 알려져 있을 때 \(X\)\(Z\)를 추정하는 데 쓸모없다.
331+
3. 모든 \(x,y,z\)에 대해 \(p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)\).
339332

340333
---
341334

342-
## 정리 40 (데이터 처리 부등식 III)
343-
344-
**정리.**
335+
**정리 40 (데이터 처리 부등식 III)**
336+
**정리.**
345337
만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면,
346338
\[
347339
I(X;Z) \le I(Y;Z)
348340
\]
349341
또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\).
350342

351-
**증명.**
343+
**증명.**
352344
\[
353345
\begin{aligned}
354-
I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
355-
&= H(Z) - H(Z\mid X, Y) \tag{101} \\
356-
&\ge H(Z) - H(Z\mid X) \tag{102} \\
357-
&= I(X;Z) \tag{103}
346+
I(Y;Z) &= H(Z) - H(Z\mid Y) \\
347+
&= H(Z) - H(Z\mid X, Y) \\
348+
&\ge H(Z) - H(Z\mid X) \\
349+
&= I(X;Z)
358350
\end{aligned}
359351
\]
360352
따라서 \(I(Y;Z) \ge I(X;Z)\), 즉 \(I(Z;Y) \ge I(Z;X)\)이다.
361353

362-
---
354+
**문제 29.(b)**
363355

364-
# 문제 29.(b)
365-
366-
## 문제 29.
367-
368-
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
356+
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
369357
**(b)** \(I(X, Y; Z) \ge I(X; Z)\).
370358

371-
## 풀이
372-
373-
### 1. 체인 룰(chain rule) 적용
359+
**풀이**
374360

361+
**1. 체인 룰(chain rule) 적용**
375362
상호 정보의 체인 룰에 따르면:
376363
\[
377364
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
378365
\]
379-
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
366+
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
380367
먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다.
381368

382-
### 2. 조건부 상호 정보의 비음성
383-
384-
항상
369+
**2. 조건부 상호 정보의 비음성**
370+
항상
385371
\[
386372
I(Y; Z \mid X) \ge 0
387373
\]
388374
이다. (KL 발산 형태로 증명할 수 있다.)
389375

390-
### 3. 부등식 결론
391-
376+
**3. 부등식 결론**
392377
따라서
393378
\[
394379
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
395380
\]
396381

397-
### 4. 등호 성립 조건
398-
399-
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
382+
**4. 등호 성립 조건**
383+
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
400384
\[
401385
I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
402386
\]
403-
이어야 한다.
404-
즉 “\(X\)를 조건으로 두었을 때 \(Y\)\(Z\)가 독립”이어야 한다.
387+
이어야 한다.
388+
즉 “\(X\)를 조건으로 두었을 때 \(Y\)\(Z\)가 독립”이어야 한다.
405389
이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
406390

407391
---
408392

409-
# 문제 31
410-
411-
## 문제 31.
412-
393+
**문제 31.**
413394
임의의 결정론적 함수 \(g\)에 대하여,
414395
\[
415396
H(X \mid g(Y)) = H(X \mid Y)
416397
\]
417398
이 성립하려면 어떤 조건이 필요한가?
418399

419-
## 풀이
420-
421-
### 1. 데이터 처리 부등식 I (조건부 형태)
400+
**풀이**
422401

402+
**1. 데이터 처리 부등식 I (조건부 형태)**
423403
이미 알고 있는 바:
424404
\[
425405
H(X \mid g(Y)) \ge H(X \mid Y),
426406
\]
427407
왜냐하면 “\(Y\)를 알면 \(g(Y)\)를 알 수 있지만, \(g(Y)\)를 안다고 해서 항상 \(Y\)가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
428408

429-
### 2. 등호 조건 분석
430-
409+
**2. 등호 조건 분석**
431410
\[
432411
H(X \mid g(Y)) = H(X \mid Y)
433412
\]
434413
일 때, 양쪽 사이에 끼어 있는
435414
\[
436415
H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
437416
\]
438-
이다.
417+
이다.
439418
즉, “\(g(Y)\)를 조건으로 \(X\)\(Y\)가 독립”이어야 한다.
440419

441-
### 3. 마르코프 사슬 해석
442-
420+
**3. 마르코프 사슬 해석**
443421
\[
444422
I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
445423
\]
446-
이는 바로
424+
이는 바로
447425
\[
448426
X \longrightarrow g(Y) \longrightarrow Y
449427
\]
450428
꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
451429

452-
### 4. 특수 사례
453-
454-
- \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
455-
-\(X\)\(Y\)가 본래 독립이라도
430+
**4. 특수 사례**
431+
- \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
432+
-\(X\)\(Y\)가 본래 독립이라도
456433
\[
457434
H(X \mid g(Y)) = H(X) = H(X \mid Y)
458435
\]
459-
이므로 등호가 된다.
460-
이 두 경우는 포함되지만, **유일한 경우는 아닙니다.**
436+
이므로 등호가 된다.
437+
이 두 경우는 포함되지만, 유일한 경우는 아니다.
461438

462439
---
463440

464-
# 문제 42.(b)
441+
**문제 42.(b)**
465442

466-
## 문제 42.
467-
468-
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
443+
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
469444
**(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\).
470445

471-
## 풀이
472-
473-
### 1. 데이터 처리 부등식 II
446+
**풀이**
474447

448+
**1. 데이터 처리 부등식 II**
475449
이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 \(g\)에 대하여:
476450
\[
477451
I(g(X); Y) \le I(X; Y).
478452
\]
479453

480-
### 2. 직관
481-
482-
- \(X\)\(Y\)에 갖는 정보량이 \(I(X;Y)\)이고,
483-
- \(X\)\(g\)로 가공한 \(g(X)\)\(X\)보다 “덜 상세”(또는 같음) →
454+
**2. 직관**
455+
- \(X\)\(Y\)에 갖는 정보량이 \(I(X;Y)\)이고,
456+
- \(X\)\(g\)로 가공한 \(g(X)\)\(X\)보다 “덜 상세”(또는 같음) →
484457
- \(g(X)\)\(Y\)에 제공할 수 있는 정보도 당연히 \(I(X;Y)\) 이하여야 한다.
485458

486-
### 3. 형식적 증명
487-
459+
**3. 형식적 증명**
488460
\[
489461
\begin{aligned}
490462
I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
491-
&\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
492-
&= I(X; Y).
463+
&\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
464+
&= I(X; Y).
493465
\end{aligned}
494466
\]
495467

496-
### 4. 등호 성립 조건
497-
498-
등호가 되려면
468+
**4. 등호 성립 조건**
469+
등호가 되려면
499470
\[
500471
H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
501472
\]
502-
즉 “\(g(X)\)를 조건으로 \(X\)\(Y\)가 독립”일 때 등호가 된다.
473+
즉 “\(g(X)\)를 조건으로 \(X\)\(Y\)가 독립”일 때 등호가 된다.
503474
다시 말해 \(g(X)\)를 기준으로 \(X\)\(Y\)는 더 이상의 상호 정보(조건부)가 없다.
504475

505476
### 2.4.5 Conditional Mutual Information

0 commit comments

Comments
 (0)