Для решения задачи распознавания любого объекта, по правилу ближайшего соседа необходимо хранить в памяти всю обучающую последовательность данных. По известному виду зависимости r рассчитываются расстояния от исследуемой точки до точек обучающей последовательности. Определяется минимальное расстояние и считается, что распознаваемая точка принадлежит к тому же классу, ЧТО и ближайшая к ней.
Например, в таблице 1 дана обучающая последовательность точек (рис.2). Требуется определить по правилу ближайшего соседа принадлежность к классам точки Z (З;3) с помощью формул (2) и (3).
Таблица 1 - Обучающая последовательность точек
Объекты |
X1 |
X2 |
V |
Z1 |
1 |
5 |
1 |
Z2 |
-2 |
4 |
1 |
Z3 |
-1 |
3 |
1 |
Z4 |
7 |
5 |
2 |
Z5 |
5,5 |
6 |
2 |
Z6 |
7 |
2 |
2 |
Сравнение полученных результатов показывает, что ближайшей к Z является точка Z1. Если пользоваться (3), то ближайшей точкой окажется Z4. В данном примере обе эти точки принадлежат к первому классу, поэтому принадлежность распознаваемой точки не изменилась. Очевидно, однако, что при использовании различных видов r принадлежность точки классам может измениться. Применение правила ближайшего соседа значительно упрощает процесс решения задачи распознавания, но предъявляет к качеству исходных данных повышенные требования: координаты точек обучающей последовательности и их классификация должны быть безошибочными, набор - полным, то есть отражать все возможные состояния исследуемого процесса. Необходимым условием применения метода, является хорошая разделимость классов.
Метод К- ближайших представителей. Обобщением метода ближайшего соседа является метод К- представителей, согласно которому объект относят к тому классу, к которому принадлежит большинство из К ближайших к нему объектов обучающей последовательности. Для того, чтобы избежать неопределенности, удобнее К выбирать нечетным. Итак, К - произвольное нечетное число, величина которого выбирается исходя из требований точности классификации с одной стороны и уменьшения машинных расчетов с другой. При больших К вероятность ошибки классификации мала, но возрастают затраты машинного времени.
К недостаткам метода следует отнести необходимость хранения в памяти всей обучающей последовательности, вычисления при классификации расстояний между всеми точками обучающей последовательности и классифицируемым объектом. Этот метод желательно применять при небольших объемах обучающих и распознаваемых выборок.
Рассмотрим пример классификации объекта, заданного вектором Z (2;3). Обучающая последовательность представлена в таблице.2.
Таблица 2 - Обучающая последовательность
Объекты |
X1 |
X2 |
Vi |
Z1 |
0 |
0 |
V1 |
Z2 |
1 |
2 |
V1 |
Z3 |
4 |
4 |
V2 |
Z4 |
2 |
1 |
V1 |
Z5 |
3 |
5 |
V2 |
Z6 |
5 |
4 |
V2 |
Z7 |
4 |
5 |
V2 |
Принимать решение будем по К = 5. Вычислим расстояния между точками обучающей последовательности и точкой (2;3), сравнив их между собой, видим, что ближайшими к Z (2,3) являются точки Z2, Z3, Z4, Z5, Z7. Так как три из пяти точек принадлежат ко второму классу, то и точку Z(2;3) следует отнести ко второму классу. Совершенно очевидно, что при изменении К может измениться, и решение о принадлежности распознаваемой точки. To же самое может произойти, если мы изменим способ определения расстояний.
1. Изучить краткие сведения из теории.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.