phys-dev
diff --git a/‎metric-algo.html‎
Lines changed: 72 additions & 91 deletions b/‎metric-algo.html‎
Lines changed: 72 additions & 91 deletions
@@ -178,110 +178,91 @@ <h1 class="menu-title">Базовые методы искусственного
 
                 <div id="content" class="content">
                     <main>
-                        <h1 id="Метрические-методы"><a class="header" href="#Метрические-методы">Метрические методы</a></h1>
-<h2 id="Основная-идея"><a class="header" href="#Основная-идея">Основная идея</a></h2>
-<p>Метрические методы основаны на <strong>гипотезе компактности</strong>: объекты одного класса находятся близко, объекты разных классов — далеко.</p>
-<hr />
-<h2 id="Ближайший-центроид-nearest-centroid"><a class="header" href="#Ближайший-центроид-nearest-centroid">Ближайший центроид (Nearest Centroid)</a></h2>
-<p><strong>Алгоритм</strong>:<br />
-Для каждого класса вычисляется центроид (среднее значение признаков).<br />
-Новый объект относится к классу, чей центроид ближе.</p>
-<p><strong>Плюсы</strong>:</p>
-<ul>
-<li>Простота реализации.</li>
-<li>Мало параметров.</li>
-<li>Быстрая классификация.</li>
-</ul>
-<p><strong>Минусы</strong>:</p>
+                        <h1 id="Метод-k-ближайших-соседей-knn"><a class="header" href="#Метод-k-ближайших-соседей-knn">Метод k-ближайших соседей (KNN)</a></h1>
+<h2 id="Постановка-задачи"><a class="header" href="#Постановка-задачи">Постановка задачи</a></h2>
+<p>Рассмотрим задачу классификации животных по двум признакам:</p>
 <ul>
-<li>Чувствителен к выбросам.</li>
-<li>Подходит только для “колоколообразных” распределений.</li>
+<li>Длина усов</li>
+<li>Длина хвоста</li>
 </ul>
-<hr />
-<h2 id="Метод-k-ближайших-соседей-knn"><a class="header" href="#Метод-k-ближайших-соседей-knn">Метод k ближайших соседей (kNN)</a></h2>
-<p><strong>Алгоритм</strong>:</p>
+<p>Для каждого объекта в обучающей выборке известна метка: <em>кот</em> или <em>пёс</em>. Цель — построить модель, которая по новым измерениям определит класс животного.</p>
+<p>При визуализации данных наблюдается, что объекты одного класса группируются в определённых областях пространства признаков.</p>
+<h2 id="Гипотеза-о-компактности"><a class="header" href="#Гипотеза-о-компактности">Гипотеза о компактности</a></h2>
+<p>Основа метода KNN — <strong>гипотеза о компактности</strong>:</p>
+<blockquote>
+<p>Объекты одного класса расположены «близко» друг к другу в пространстве признаков, а объекты разных классов — «далеко».</p>
+</blockquote>
+<p>Эта гипотеза позволяет решать задачу классификации через поиск похожих (близких) объектов в обучающей выборке.</p>
+<h2 id="Алгоритм-knn"><a class="header" href="#Алгоритм-knn">Алгоритм KNN</a></h2>
+<p><strong>Определение:</strong><br />
+K-ближайших соседей (K Nearest Neighbors, KNN) — один из самых простых и интуитивно понятных алгоритмов классификации.</p>
+<p><strong>Алгоритм предсказания:</strong></p>
 <ol>
-<li>Храним всю обучающую выборку.</li>
-<li>Для нового объекта находим ( k ) ближайших соседей.</li>
-<li>Класс — наиболее частый среди соседей.</li>
+<li>Для нового объекта вычислить расстояние до всех объектов обучающей выборки</li>
+<li>Выбрать $K$ объектов с наименьшим расстоянием</li>
+<li>Присвоить объекту класс, который чаще всего встречается среди $K$ соседей (голосование большинства)</li>
 </ol>
-<p><strong>Гиперпараметры</strong>:</p>
+<p><strong>Гиперпараметр:</strong><br />
+$K$ — количество соседей, участвующих в голосовании. Выбор $K$ влияет на качество модели:</p>
 <ul>
-<li>( k ) — число соседей.</li>
-<li>Метрика расстояния.</li>
-<li>Весовая функция.</li>
+<li>Малое $K$: модель чувствительна к шуму и выбросам</li>
+<li>Большое $K$: граница решений становится более гладкой, но может потерять локальные особенности</li>
 </ul>
-<p><strong>Особенности</strong>:</p>
+<h2 id="Метрики-расстояния"><a class="header" href="#Метрики-расстояния">Метрики расстояния</a></h2>
+<p>Для определения «близости» объектов используются различные метрики:</p>
+<h3 id="Манхэттенское-расстояние"><a class="header" href="#Манхэттенское-расстояние">Манхэттенское расстояние</a></h3>
+<p>$$d(\mathbf{x}, \mathbf{\hat{x}}) = \sum_{i=1}^{N} |x_i - \hat{x}_i|$$</p>
+<h3 id="Евклидово-расстояние"><a class="header" href="#Евклидово-расстояние">Евклидово расстояние</a></h3>
+<p>$$d(\mathbf{x}, \mathbf{\hat{x}}) = \sqrt{\sum_{i=1}^{N} (x_i - \hat{x}_i)^2}$$</p>
+<h3 id="Косинусное-расстояние"><a class="header" href="#Косинусное-расстояние">Косинусное расстояние</a></h3>
+<p>$$d(\mathbf{x}, \mathbf{\hat{x}}) = 1 - \frac{\sum_{i=1}^{N} x_i \hat{x}<em>i}{\sqrt{\sum</em>{i=1}^{N} x_i^2} \cdot \sqrt{\sum_{i=1}^{N} \hat{x}_i^2}}$$</p>
+<p><strong>Преимущество косинусного расстояния:</strong> измеряет угол между векторами, а не абсолютную разницу значений. Полезно, когда важна ориентация вектора признаков, а не его длина.</p>
+<h2 id="Проблемы-и-решения"><a class="header" href="#Проблемы-и-решения">Проблемы и решения</a></h2>
+<h3 id="1-Зависимость-от-масштаба-признаков"><a class="header" href="#1-Зависимость-от-масштаба-признаков">1. Зависимость от масштаба признаков</a></h3>
+<p><strong>Проблема:</strong><br />
+Если признаки имеют разные масштабы (например, 29 признаков ∈ [0, 1], а один ∈ [0, 1000]), то расстояние будет доминироваться признаком с большим масштабом.</p>
+<p><strong>Решение — нормализация признаков:</strong></p>
 <ul>
-<li><strong>Ленивое обучение</strong>: модель не обучается заранее, все вычисления происходят при классификации.</li>
-<li>Требует хранения всей выборки.</li>
-<li>Медленный на больших данных.</li>
+<li>Минимакс-нормализация: приведение всех значений к диапазону [0, 1]</li>
+<li>Стандартизация: приведение к нулевому математическому ожиданию и единичной дисперсии ($\mu = 0, \sigma = 1$)</li>
 </ul>
-<hr />
-<h2 id="Весовые-обобщения-knn"><a class="header" href="#Весовые-обобщения-knn">Весовые обобщения kNN</a></h2>
-<p>Можно учитывать не только количество соседей, но и их расстояние до объекта:</p>
-<p>[
-a(x) = \arg \max \sum_{t=1}^{k} w_t \cdot I[y(x_t) = a]
-]</p>
-<p>где ( w_t ) — вес, зависящий от расстояния.</p>
-<p><strong>Примеры весовых схем</strong>:</p>
+<h3 id="2-Вычислительная-сложность"><a class="header" href="#2-Вычислительная-сложность">2. Вычислительная сложность</a></h3>
+<p><strong>Проблема:</strong><br />
+При большом объёме обучающей выборки ($N$ объектов) поиск ближайших соседей требует $O(N)$ операций сравнения для каждого нового объекта.</p>
+<p><strong>Решение — структуры данных для ускорения поиска:</strong></p>
 <ul>
-<li>Обратное расстояние: ( w_t = \frac{1}{\rho(x, x_t)} )</li>
-<li>Ядерные веса: ( w_t = K\left(\frac{\rho(x, x_t)}{h}\right) )</li>
+<li><strong>kD-tree</strong> (k-dimensional tree): дерево разбиения пространства, на каждом уровне разделяющее данные по одному признаку</li>
+<li><strong>Ball tree</strong>: иерархическая структура на основе гиперсфер</li>
+<li><strong>HNSW</strong> (Hierarchical Navigable Small World): графовая структура для приближённого поиска ближайших соседей</li>
+<li><strong>FRiS-Stolp</strong>: метод отбора эталонных объектов для сокращения размера выборки</li>
 </ul>
-<hr />
-<h2 id="Регрессия-НадараяВатсона"><a class="header" href="#Регрессия-НадараяВатсона">Регрессия Надарая–Ватсона</a></h2>
-<p>Обобщение kNN для регрессии:</p>
-<p>[
-a(x) = \frac{\sum_{i=1}^{m} w_i(x) y_i}{\sum_{i=1}^{m} w_i(x)}
-]</p>
-<p>где ( w_i(x) ) — вес, зависящий от расстояния до объекта обучения.</p>
-<hr />
-<h2 id="Проблемы-метрических-методов"><a class="header" href="#Проблемы-метрических-методов">Проблемы метрических методов</a></h2>
-<ol>
-<li>
-<p><strong>Зависимость от масштаба признаков</strong><br />
-Решение: нормировка (например, StandardScaler).</p>
-</li>
-<li>
-<p><strong>Проклятие размерности</strong><br />
-В больших размерностях все объекты становятся “одинаково далекими”.<br />
-Но на реальных данных есть <strong>низкоразмерная структура</strong>.</p>
-</li>
-<li>
-<p><strong>Медленная классификация</strong><br />
-Решение: эффективные структуры данных (KD-tree, Ball tree, HNSW).</p>
-</li>
-</ol>
-<hr />
-<h2 id="Метрики-расстояния"><a class="header" href="#Метрики-расстояния">Метрики расстояния</a></h2>
+<h3 id="3-Улучшение-голосования"><a class="header" href="#3-Улучшение-голосования">3. Улучшение голосования</a></h3>
+<p>Вместо простого подсчёта количества соседей каждого класса можно использовать <strong>взвешенное голосование</strong>, где вес соседа обратно пропорционален расстоянию до него:</p>
+<p>$$\text{вес}_i = \frac{1}{d(\mathbf{x}, \mathbf{x}_i)} \quad \text{или} \quad \text{вес}_i = e^{-d(\mathbf{x}, \mathbf{x}_i)}$$</p>
+<h2 id="Свойства-модели-knn"><a class="header" href="#Свойства-модели-knn">Свойства модели KNN</a></h2>
+<div class="table-wrapper"><table><thead><tr><th>Аспект</th><th>Описание</th></tr></thead><tbody>
+<tr><td><strong>Обучение</strong></td><td>Отсутствует в классическом смысле. Модель «запоминает» всю обучающую выборку</td></tr>
+<tr><td><strong>Предсказание</strong></td><td>Вычислительно затратно: требуется рассчитать расстояния до всех объектов выборки</td></tr>
+<tr><td><strong>Параметры</strong></td><td>Отсутствуют (модель не имеет обучаемых параметров)</td></tr>
+<tr><td><strong>Гиперпараметры</strong></td><td>$K$ (количество соседей), тип метрики расстояния, стратегия взвешивания</td></tr>
+<tr><td><strong>Интерпретируемость</strong></td><td>Высокая: решение принимается на основе конкретных похожих объектов</td></tr>
+</tbody></table>
+</div>
+<h2 id="Метод-fris-stolp-для-отбора-эталонов"><a class="header" href="#Метод-fris-stolp-для-отбора-эталонов">Метод FRiS-Stolp для отбора эталонов</a></h2>
+<p>Для сокращения вычислительной сложности можно отобрать подмножество наиболее информативных объектов — <strong>эталонов</strong> (столпов).</p>
+<p><strong>Критерий качества эталона:</strong><br />
+Объект является хорошим эталоном своего класса, если:</p>
 <ul>
-<li><strong>Евклидова</strong>: ( \sqrt{\sum (x_i - z_i)^2} )</li>
-<li><strong>Манхэттенская</strong>: ( \sum |x_i - z_i| )</li>
-<li><strong>Минковского</strong>: ( \left( \sum |x_i - z_i|^p \right)^{1/p} )</li>
-<li><strong>Махаланобиса</strong>: учитывает ковариацию признаков.</li>
-<li><strong>Косинусная мера</strong>: для текстов и векторов.</li>
-<li><strong>Джаккарда</strong>: для множеств.</li>
-<li><strong>DTW (Dynamic Time Warping)</strong>: для временных рядов.</li>
-<li><strong>Левенштейна</strong>: для строк.</li>
+<li>Объекты его класса расположены максимально близко к нему</li>
+<li>Объекты других классов расположены максимально далеко</li>
 </ul>
+<p><strong>Функция FRiS:</strong>
+$$\text{FRiS}(z, a_i, b_i) = \frac{r_2 - r_1}{r_2 + r_1}$$</p>
+<p>где $r_1$ — расстояние до ближайшего объекта своего класса, $r_2$ — до ближайшего объекта чужого класса.</p>
 <hr />
-<h2 id="Пример-knn-на-python-scikit-learn"><a class="header" href="#Пример-knn-на-python-scikit-learn">Пример: kNN на Python (scikit-learn)</a></h2>
-<pre><code class="language-python">from sklearn.neighbors import KNeighborsClassifier
-
-model = KNeighborsClassifier(n_neighbors=5, metric='euclidean')
-model.fit(X_train, y_train)
-predictions = model.predict(X_test)
-</code></pre>
-<hr />
-<h2 id="Итог"><a class="header" href="#Итог">Итог</a></h2>
-<p>Метрические методы — простые, интерпретируемые и мощные инструменты, особенно когда:</p>
-<ul>
-<li>Нет явных признаковых описаний.</li>
-<li>Данные имеют геометрическую структуру.</li>
-<li>Нужна быстрая прототипизация.</li>
-</ul>
-<p><strong>Главный недостаток</strong> — вычислительная сложность на больших данных, но это решается выбором эффективных метрик и структур данных.</p>
+<blockquote>
+<p>В следующих главах: метрики качества моделей машинного обучения, линейная регрессия.</p>
+</blockquote>
 
                     </main>