You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
<p>Рассмотрим задачу классификации животных по двум признакам:</p>
196
184
<ul>
197
-
<li>Чувствителен к выбросам.</li>
198
-
<li>Подходит только для “колоколообразных” распределений.</li>
185
+
<li>Длина усов</li>
186
+
<li>Длина хвоста</li>
199
187
</ul>
200
-
<hr/>
201
-
<h2id="Метод-k-ближайших-соседей-knn"><aclass="header" href="#Метод-k-ближайших-соседей-knn">Метод k ближайших соседей (kNN)</a></h2>
202
-
<p><strong>Алгоритм</strong>:</p>
188
+
<p>Для каждого объекта в обучающей выборке известна метка: <em>кот</em> или <em>пёс</em>. Цель — построить модель, которая по новым измерениям определит класс животного.</p>
189
+
<p>При визуализации данных наблюдается, что объекты одного класса группируются в определённых областях пространства признаков.</p>
190
+
<h2id="Гипотеза-о-компактности"><aclass="header" href="#Гипотеза-о-компактности">Гипотеза о компактности</a></h2>
191
+
<p>Основа метода KNN — <strong>гипотеза о компактности</strong>:</p>
192
+
<blockquote>
193
+
<p>Объекты одного класса расположены «близко» друг к другу в пространстве признаков, а объекты разных классов — «далеко».</p>
194
+
</blockquote>
195
+
<p>Эта гипотеза позволяет решать задачу классификации через поиск похожих (близких) объектов в обучающей выборке.</p>
<p><strong>Преимущество косинусного расстояния:</strong> измеряет угол между векторами, а не абсолютную разницу значений. Полезно, когда важна ориентация вектора признаков, а не его длина.</p>
220
+
<h2id="Проблемы-и-решения"><aclass="header" href="#Проблемы-и-решения">Проблемы и решения</a></h2>
221
+
<h3id="1-Зависимость-от-масштаба-признаков"><aclass="header" href="#1-Зависимость-от-масштаба-признаков">1. Зависимость от масштаба признаков</a></h3>
222
+
<p><strong>Проблема:</strong><br/>
223
+
Если признаки имеют разные масштабы (например, 29 признаков ∈ [0, 1], а один ∈ [0, 1000]), то расстояние будет доминироваться признаком с большим масштабом.</p>
<p>Вместо простого подсчёта количества соседей каждого класса можно использовать <strong>взвешенное голосование</strong>, где вес соседа обратно пропорционален расстоянию до него:</p>
<tr><td><strong>Обучение</strong></td><td>Отсутствует в классическом смысле. Модель «запоминает» всю обучающую выборку</td></tr>
245
+
<tr><td><strong>Предсказание</strong></td><td>Вычислительно затратно: требуется рассчитать расстояния до всех объектов выборки</td></tr>
246
+
<tr><td><strong>Параметры</strong></td><td>Отсутствуют (модель не имеет обучаемых параметров)</td></tr>
247
+
<tr><td><strong>Гиперпараметры</strong></td><td>$K$ (количество соседей), тип метрики расстояния, стратегия взвешивания</td></tr>
248
+
<tr><td><strong>Интерпретируемость</strong></td><td>Высокая: решение принимается на основе конкретных похожих объектов</td></tr>
249
+
</tbody></table>
250
+
</div>
251
+
<h2id="Метод-fris-stolp-для-отбора-эталонов"><aclass="header" href="#Метод-fris-stolp-для-отбора-эталонов">Метод FRiS-Stolp для отбора эталонов</a></h2>
252
+
<p>Для сокращения вычислительной сложности можно отобрать подмножество наиболее информативных объектов — <strong>эталонов</strong> (столпов).</p>
253
+
<p><strong>Критерий качества эталона:</strong><br/>
254
+
Объект является хорошим эталоном своего класса, если:</p>
0 commit comments