Классификация объектов с использованием теории распознавания образов: Методические указания для самостоятельных занятий по подготовке к лабораторным работам по курсу «Техническая кибернетика», страница 2

Для решения задачи распознавания любого объекта, по правилу ближайшего соседа необходимо хранить в памяти всю обучающую последовательность данных. По известному виду зависимости r рассчитываются расстояния от исследуемой точки до точек обучающей последовательности. Определяется минимальное расстояние и считается, что распознаваемая точка принадлежит к тому же классу, ЧТО и ближайшая к ней.

Например, в таблице 1 дана обучающая последовательность точек (рис.2). Требуется определить по правилу ближайшего соседа принадлежность к классам точки Z (З;3) с помощью формул (2) и (3).

 Таблица 1 - Обучающая последовательность точек

Объекты

X1

X2

V

Z1

1

5

1

Z2

-2

4

1

Z3

-1

3

1

Z4

7

5

2

Z5

5,5

6

2

Z6

7

2

2

Сравнение полученных результатов показывает,  что ближайшей к Z является точка Z1. Если пользоваться (3), то  ближайшей точкой окажется Z4. В данном примере обе эти точки принадлежат к первому классу, поэтому принадлежность распознаваемой точки не изменилась. Очевидно, однако, что при использовании различных видов r принадлежность точки классам может  измениться. Применение правила ближайшего соседа значительно упрощает процесс решения задачи распознавания, но предъявляет к качеству исходных данных повышенные требования: координаты точек обучающей последовательности и их классификация должны быть безошибочными, набор - полным, то есть отражать все возможные состояния исследуемого процесса. Необходимым условием применения метода, является хорошая разделимость классов.

Метод  К- ближайших представителей. Обобщением метода ближайшего соседа является метод  К- представителей, согласно которому объект относят к тому классу, к которому принадлежит большинство из К ближайших к нему объектов обучающей последовательности. Для того, чтобы избежать неопределенности, удобнее К выбирать нечетным. Итак, К - произвольное нечетное число, величина которого выбирается исходя из требований точности классификации с одной стороны и уменьшения машинных расчетов с другой. При больших К вероятность ошибки классификации мала, но возрастают затраты машинного времени.

К недостаткам метода следует отнести необходимость хранения в памяти всей обучающей последовательности, вычисления при классификации расстояний между всеми точками обучающей последовательности и классифицируемым объектом. Этот метод желательно применять при небольших объемах обучающих и распознаваемых выборок.

Рассмотрим пример классификации объекта, заданного вектором Z (2;3). Обучающая последовательность представлена в таблице.2.

Таблица 2Обучающая последовательность

Объекты

X1

X2

Vi

Z1

0

0

V1

Z2

1

2

V1

Z3

4

4

V2

Z4

2

1

V1

Z5

3

5

V2

Z6

5

4

V2

Z7

4

5

V2

Принимать решение будем по  К = 5. Вычислим расстояния между точками обучающей последовательности и точкой (2;3), сравнив их между собой, видим, что ближайшими к Z (2,3) являются точки Z2, Z3, Z4, Z5, Z7. Так как   три из пяти точек принадлежат ко второму классу, то и точку Z(2;3) следует отнести ко второму классу. Совершенно очевидно, что при изменении К может измениться, и решение о принадлежности распознаваемой точки. To же самое может произойти, если мы изменим способ определения расстояний.

2 Порядок выполнения работы

1.  Изучить краткие сведения из теории.