Skip to content

Commit e9602ab

Browse files
authored
Merge pull request #13 from jungin7612/feature/4.4
change [ to $
2 parents 67c6929 + c690992 commit e9602ab

1 file changed

Lines changed: 83 additions & 83 deletions

File tree

_posts/2025-08-04-02.Information-Theory.md

Lines changed: 83 additions & 83 deletions
Original file line numberDiff line numberDiff line change
@@ -156,7 +156,7 @@ $$
156156
H(X) = \log_2 8 = 3
157157
$$
158158

159-
$\therefore$ 세 질문으로 \(X\)를 완벽하게 구분할 수 있음.
159+
$\therefore$ 세 질문으로 $X$를 완벽하게 구분할 수 있음.
160160

161161
### 2.4.2 Conditional Entropy
162162

@@ -282,48 +282,48 @@ $I(X; Y) = 0$이라면, $p_{X,Y} = p_X p_Y$가 되어 $X$와 $Y$는 독립이
282282
### 2.4.4 Properties of Mutual Information
283283

284284
**정리 36 (데이터 처리 부등식 I)**
285-
**정리.** \(f\)가 결정론적 함수라면,
286-
\[
285+
**정리.** $f$가 결정론적 함수라면,
286+
$$
287287
H(X) \ge H(f(X))
288-
\]
288+
$$
289289
이다.
290290

291291
**증명.**
292-
\[
292+
$$
293293
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X)
294-
\]
294+
$$
295295
또한,
296-
\[
296+
$$
297297
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X))
298-
\]
299-
따라서 \(H(X) \ge H(f(X))\)이다.
300-
(\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).)
298+
$$
299+
따라서 $H(X) \ge H(f(X))$이다.
300+
($f$가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 $H(X)=H(f(X))$.)
301301

302302
---
303303

304304
**정리 37 (Mutual information은 대칭적이다)**
305305
**정리.**
306-
\[
306+
$$
307307
I(X;Y) = I(Y;X)
308-
\]
308+
$$
309309

310310
**증명.**
311-
\[
311+
$$
312312
\begin{aligned}
313313
I(X;Y) &= H(X) - H(X\mid Y) \\
314314
&= H(X) - \bigl(H(X,Y) - H(Y)\bigr) \\
315315
&= H(X) + H(Y) - H(X,Y) \\
316316
&= I(Y;X)
317317
\end{aligned}
318-
\]
318+
$$
319319

320320
---
321321

322322
**정리 38 (Mutual information은 비음수이다)**
323323
**정리.**
324-
\[
324+
$$
325325
I(X;Y) \ge 0
326-
\]
326+
$$
327327

328328
**증명.**
329329
$$
@@ -336,176 +336,176 @@ H(X) - H(X\mid Y)
336336
&= D\!\left(p_{X,Y} \,\|\, p_X p_Y\right) \ge 0
337337
\end{aligned}
338338
$$
339-
따라서 \(I(X;Y) = D(p_{X,Y}\,\|\,p_X p_Y) \ge 0\).
340-
여기서 \(p_X p_Y\)\(X\)\(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
341-
또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
339+
따라서 $I(X;Y) = D(p_{X,Y}\,\|\,p_X p_Y) \ge 0$.
340+
여기서 $p_X p_Y$는 $X$와 $Y$가 각각의 주변분포 $p_X, p_Y$를 가지지만 서로 독립인 $(X,Y)$에 대한 분포이다.
341+
또한 부등식 $H(X) \ge H(X\mid Y)$는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
342342

343343
---
344344

345345
**정리 39 (데이터 처리 부등식 II)**
346-
**정리.** 임의의 함수 \(f: \mathcal{X} \to \mathbb{R}\)에 대해 다음이 성립한다:
347-
\[
346+
**정리.** 임의의 함수 $f: \mathcal{X} \to \mathbb{R}$에 대해 다음이 성립한다:
347+
$$
348348
I(X;Y) \ge I(f(X);Y)
349-
\]
349+
$$
350350

351351
**증명.**
352-
\[
352+
$$
353353
\begin{aligned}
354354
I(X;Y) &= H(Y) - H(Y\mid X) \\
355355
&= H(Y) - H(Y\mid X, f(X)) \\
356356
&\ge H(Y) - H(Y\mid f(X)) \\
357357
&= I(f(X);Y)
358358
\end{aligned}
359-
\]
359+
$$
360360

361361
**일반화.**
362-
\(X - Y - Z\)가 마르코프 체인(또는 \(X\)\(Z\)\(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
363-
1. \(X - Y - Z \iff X\)\(Z\)\(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\)
364-
2. \(Y\)가 알려져 있을 때 \(X\)\(Z\)를 추정하는 데 쓸모없다.
365-
3. 모든 \(x,y,z\)에 대해 \(p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)\).
362+
$X - Y - Z$가 마르코프 체인(또는 $X$와 $Z$가 $Y$를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
363+
1. $X - Y - Z \iff X$와 $Z$가 $Y$를 주었을 때 독립이다. $(X \perp Z \mid Y)$
364+
2. $Y$가 알려져 있을 때 $X$는 $Z$를 추정하는 데 쓸모없다.
365+
3. 모든 $x,y,z$에 대해 $p_{Z\mid X,Y}(z\mid x,y) = p_{Z\mid Y}(z\mid y)$.
366366

367367
---
368368

369369
**정리 40 (데이터 처리 부등식 III)**
370370
**정리.**
371-
만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면,
372-
\[
371+
만약 $X - Y - Z$가 마르코프 체인을 이룬다면,
372+
$$
373373
I(X;Z) \le I(Y;Z)
374-
\]
375-
또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\).
374+
$$
375+
또는 대칭적으로 $I(Z;X) \le I(Z;Y)$.
376376

377377
**증명.**
378-
\[
378+
$$
379379
\begin{aligned}
380380
I(Y;Z) &= H(Z) - H(Z\mid Y) \\
381381
&= H(Z) - H(Z\mid X, Y) \\
382382
&\ge H(Z) - H(Z\mid X) \\
383383
&= I(X;Z)
384384
\end{aligned}
385-
\]
386-
따라서 \(I(Y;Z) \ge I(X;Z)\), 즉 \(I(Z;Y) \ge I(Z;X)\)이다.
385+
$$
386+
따라서 $I(Y;Z) \ge I(X;Z)$, 즉 $I(Z;Y) \ge I(Z;X)$이다.
387387

388388
**문제 29.(b)**
389389

390-
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
391-
**(b)** \(I(X, Y; Z) \ge I(X; Z)\).
390+
$X, Y, Z$가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
391+
**(b)** $I(X, Y; Z) \ge I(X; Z)$.
392392

393393
**풀이**
394394

395395
**1. 체인 룰(chain rule) 적용**
396396
상호 정보의 체인 룰에 따르면:
397-
\[
397+
$$
398398
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
399-
\]
400-
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
401-
먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다.
399+
$$
400+
이는 “$X, Y$가 합쳐질 때 $Z$와 주고받는 정보량”을
401+
먼저 $X$가 주는 정보량과, $X$를 알고 난 뒤 $Y$가 더 주는 추가 정보량으로 분해한 식이다.
402402

403403
**2. 조건부 상호 정보의 비음성**
404404
항상
405-
\[
405+
$$
406406
I(Y; Z \mid X) \ge 0
407-
\]
407+
$$
408408
이다. (KL 발산 형태로 증명할 수 있다.)
409409

410410
**3. 부등식 결론**
411411
따라서
412-
\[
412+
$$
413413
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
414-
\]
414+
$$
415415

416416
**4. 등호 성립 조건**
417-
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
418-
\[
417+
등호 $I(X, Y; Z) = I(X; Z)$가 되려면
418+
$$
419419
I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
420-
\]
420+
$$
421421
이어야 한다.
422-
즉 “\(X\)를 조건으로 두었을 때 \(Y\)\(Z\)가 독립”이어야 한다.
423-
이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
422+
즉 “$X$를 조건으로 두었을 때 $Y$와 $Z$가 독립”이어야 한다.
423+
이 역시 $Y \to X \to Z$ 형태의 마르코프 사슬과 동치이다.
424424

425425
---
426426

427427
**문제 31.**
428-
임의의 결정론적 함수 \(g\)에 대하여,
429-
\[
428+
임의의 결정론적 함수 $g$에 대하여,
429+
$$
430430
H(X \mid g(Y)) = H(X \mid Y)
431-
\]
431+
$$
432432
이 성립하려면 어떤 조건이 필요한가?
433433

434434
**풀이**
435435

436436
**1. 데이터 처리 부등식 I (조건부 형태)**
437437
이미 알고 있는 바:
438-
\[
438+
$$
439439
H(X \mid g(Y)) \ge H(X \mid Y),
440-
\]
441-
왜냐하면 “\(Y\)를 알면 \(g(Y)\)를 알 수 있지만, \(g(Y)\)를 안다고 해서 항상 \(Y\)가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
440+
$$
441+
왜냐하면 “$Y$를 알면 $g(Y)$를 알 수 있지만, $g(Y)$를 안다고 해서 항상 $Y$가 복원되지는 않으므로” 불확실성이 더 작아지거나 같기 때문이다.
442442

443443
**2. 등호 조건 분석**
444-
\[
444+
$$
445445
H(X \mid g(Y)) = H(X \mid Y)
446-
\]
446+
$$
447447
일 때, 양쪽 사이에 끼어 있는
448-
\[
448+
$$
449449
H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
450-
\]
450+
$$
451451
이다.
452-
즉, “\(g(Y)\)를 조건으로 \(X\)\(Y\)가 독립”이어야 한다.
452+
즉, “$g(Y)$를 조건으로 $X$와 $Y$가 독립”이어야 한다.
453453

454454
**3. 마르코프 사슬 해석**
455-
\[
455+
$$
456456
I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
457-
\]
457+
$$
458458
이는 바로
459-
\[
459+
$$
460460
X \longrightarrow g(Y) \longrightarrow Y
461-
\]
461+
$$
462462
꼴의 마르코프 사슬 형태가 성립함을 뜻한다.
463463

464464
**4. 특수 사례**
465-
- \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
466-
-\(X\)\(Y\)가 본래 독립이라도
467-
\[
465+
- $g$가 일대일 대응(가역)이면 당연히 $g(Y) \leftrightarrow Y$ 양방향 복원이 가능하므로 등호 성립.
466+
-$X$와 $Y$가 본래 독립이라도
467+
$$
468468
H(X \mid g(Y)) = H(X) = H(X \mid Y)
469-
\]
469+
$$
470470
이므로 등호가 된다.
471471
이 두 경우는 포함되지만, 유일한 경우는 아니다.
472472

473473
---
474474

475475
**문제 42.(b)**
476476

477-
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
478-
**(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\).
477+
다음 부등식들 중 일반적으로 $ \ge, =, \le $ 중 어느 관계가 성립하는지 각각 표시하라.
478+
**(b)** $I(g(X); Y)$ vs. $I(X; Y)$.
479479

480480
**풀이**
481481

482482
**1. 데이터 처리 부등식 II**
483-
이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 \(g\)에 대하여:
484-
\[
483+
이것은 4.4절에서 나온 정리와 같다. 임의의 결정론적 함수 $g$에 대하여:
484+
$$
485485
I(g(X); Y) \le I(X; Y).
486-
\]
486+
$$
487487

488488
**2. 직관**
489-
- \(X\)\(Y\)에 갖는 정보량이 \(I(X;Y)\)이고,
490-
- \(X\)\(g\)로 가공한 \(g(X)\)\(X\)보다 “덜 상세”(또는 같음) →
491-
- \(g(X)\)\(Y\)에 제공할 수 있는 정보도 당연히 \(I(X;Y)\) 이하여야 한다.
489+
- $X$가 $Y$에 갖는 정보량이 $I(X;Y)$이고,
490+
- $X$를 $g$로 가공한 $g(X)$는 $X$보다 “덜 상세”(또는 같음) →
491+
- $g(X)$가 $Y$에 제공할 수 있는 정보도 당연히 $I(X;Y)$ 이하여야 한다.
492492

493493
**3. 형식적 증명**
494-
\[
494+
$$
495495
\begin{aligned}
496496
I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
497497
&\le H(Y) - H(Y \mid X) \quad (\text{조건부 엔트로피 감소 } H(Y \mid g(X)) \ge H(Y \mid X)) \\
498498
&= I(X; Y).
499499
\end{aligned}
500-
\]
500+
$$
501501

502502
**4. 등호 성립 조건**
503503
등호가 되려면
504-
\[
504+
$$
505505
H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
506-
\]
507-
즉 “\(g(X)\)를 조건으로 \(X\)\(Y\)가 독립”일 때 등호가 된다.
508-
다시 말해 \(g(X)\)를 기준으로 \(X\)\(Y\)는 더 이상의 상호 정보(조건부)가 없다.
506+
$$
507+
즉 “$g(X)$를 조건으로 $X$와 $Y$가 독립”일 때 등호가 된다.
508+
다시 말해 $g(X)$를 기준으로 $X$와 $Y$는 더 이상의 상호 정보(조건부)가 없다.
509509

510510
### 2.4.5 Conditional Mutual Information
511511

0 commit comments

Comments
 (0)