Алгоритм
1.1 Назначение алгоритма
Алгоритм предназначен для построения некоторого правила, позволяющего достаточно надежно относить произвольный объект выборки к одному из классов, и выделения в пространстве описаний выборки подсистемы признаков, обеспечивающих максимальную надежность распознавания.
1.2 Описание алгоритма
Имеется
обучающая выборка из генеральной совокупности
объектов, описанная в пространстве
, разделенная на классы
алфавита
.
Требуется:
I) построить решающее правило D, позволяющее относить к одному из классов произвольный объект q генеральной совокупности, описанный в пространстве x;
2) из
заданных m признаков пространства описаний x выбрать подсистему l
признаков , обеспечивающих максимальную надежность
распознавания.
Задача решается по следующей схеме:
I. Определяется
мера близости объекта q, генеральной совокупности к каждому
из Sj классов.
2.
Объект q относится к тому классу Sj, для которого было минимальным.
3. Определяется оценка информативности каждого признака xi пространства описаний x.
Из m признаков пространства описаний x исключаются такие признаки, оценки информативности которых по
величине меньше оценки каждого из l оставшихся признаков.
1.3 Математическая постановка и описание алгоритма
Дано:
- матрица исходных данных, где NO - число объектов, a NP - число признаков, характеризующих каждый объект; из
числа NO объектов NE входят в экзаменационную выборку, NOE - в обучающую;
- сведения о типе каждого признака (количественный -
,
качественный -
);
- сведения об учете каждого признака (признак учитывается -
,
признак не учитывается -
);
RR - число признаков, учитываемых в системе;
- информация об учете каждого объекта. Если i-й объект не учитывается, то NOBi = 0, иначе i-й объект учитывается, причем если NOBi=+l, то этот объект из обучающей выборки, а l - номер класса, к которому он относится.
Если NOВi=-l,
то это объект из экзаменационной выборки, a l - номер его класса.
- номера классов, на которые разделена обучающая
выборка (классы могут нумероваться не обязательно от 1 до К).
K - число классов;
Требуется:
а)
отнести к одному из классов s1, s2, …, sk произвольный
объект генеральной выборки, имеющий описание
;
б) определить
l признаков пространства описаний , обеспечивающих максимальную надежность
распознавания объектов.
Решение
задачи выполнено двумя методами "0тсев I" и "Отсев 2". В методе "Отсев I" пространство описаний объектов
в j-м классе совпадает с пространством описаний
. Номер класса, к которому относится
произвольный объект
генеральной выборки, определяется
следующим образом. Находятся близости объекта
к каждому
классу s1, s2,…, sk по каждому признаку
-
. Каждая
последовательность величин
, соответствующая признаку
, упорядочивается по
возрастанию значений
:
.
Для каждого признака определяется последовательность величин:
,
где
- характеризует место класса
для
объекта
по признаку
. Далее
определяется мера близости объекта
к каждому из классов по
совокупности признаков:
,
(1)
Объект
относится к тому классу
, для которого
наименьшее.
Близость
объекта к классу
по
признаку
определяется по формуле
(2)
где - значение i-го
признака для объекта
;
- значения i-го
признака для объектов, входящих в класс
;
- малая величина (
=0,0001);
t - число объектов в классе ;
- разности значений i-го признака для пар объектов класса
;
- число таких разностей. Для качественного признака
, если значения
и
совпали, иначе
.
Следует
заметить, что число объектов t
в классе менее двух быть не может.
Построенное таким способом решающее правило испытывалось по трём критериям, позволяющим оценить его надежность. Испытание производилось раздельно для обучающей и экзаменационной выборок.
По первому критерию надежность правила оценивается путем сравнения истинного класса объекта с номером класса, присвоенного объекту в соответствии с правилом. Эффективность распознавания в этом случае определяется по формуле
,
(3)
где - эффективность распознавания, в процентах;
- число правильно распознанных объектов выборки (таких, у
которых истинный класс совпал с номером класса по правилу);
- число объектов выборки.
По
второму критерию надежность правила оценивается путем сравнения истинного класса
объекта с номерами двух ближайших к объекту классов, установленных правилом.
Эффективность распознавания в этом случае определяется также по формуле для . Объект считается правильно распознанным,
если его истинный класс совпал хотя бы с одним из двух ближайших, установленных
правилом.
Третий критерий оценки качества распознавания определяется по формуле
,
(4)
где - эффективность распознавания объектов;
- эффективность распознавания на обучающей выборке;
- эффективность распознавания на экзаменационной выборке;
- веса вероятностей правильного распознавания объектов
обучающей и экзаменационной выборок соответственно (
). Значения
и
априорно
задаются.
Для
выделения из системы признаков
информативных определяется оценка,
обратная информативности каждого признака по формуле
,
,
(5)
где - число объектов обучающей выборки;
- множество значений признака
для
объектов обучающей выборки из класса
.
Оценка
характеризует среднюю для признака
близость к своим классам объектов обучающей
выборки. Чем больше величина
, тем менее информативен
признак. Признаки с наименьшей информативностью могут быть исключены из системы
описаний
.
Исключение признаков выполняется по одному.
При этом каждый раз пересчитывается решающее правило и оценивается эффективность качества распознавания объектов. Максимально допустимое число удаляемых признаков (МС) предварительно задается.
В
методе "Отсев 2" каждый класс sj имеет свою подсистему признаков . Для отнесения произвольного объекта
генеральной выборки к одному из классов
определяется мера близости этого объекта к каждому классу sj по формуле
,
,
(6)
где - количество признаков в подсистеме
.
Объект
относится к тому классу
, для которого
минимально.
Оценка,
обратная информативности признака для каждого класса определяется
по формуле
,
,
(7)
где - количество объектов обучающей выборки из класса
. Исключению подлежит такой
, для которого
максимальна.
При этом число оставшихся признаков в классе
должно
быть не менее одного. Максимально допустимое число удаляемых признаков
в этом случае также задается.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.