Эти методы относятся к классификационным [17]. Они полезны для принятия решений по аналогии.
Метод сравнения с прототипом. В качестве прототипов выбираются центры групп, например, групп А и В (см. Рис. 15). Координаты центра каждой группы либо определяются по формуле
Zi=(Xi,1+Xi,2+…+Xi,N)/N ,
где Xi,1…Xi,N – координаты точек, принадлежащих определенной группе; i – номер координаты (независимого параметра); N – число точек в группе, либо в качестве такого центра берется реальный объект, наиболее близкий к расчетному центру. Для классификации неизвестного объекта находится ближайший прототип и считается, что объект имеет класс прототипа. Проблема сравнения расстояний в случае независимых переменных различной природы решается методом, аналогичным использованию стандартизированных весов.
Метод k ближайших соседей. Для нового объекта находится k ближайших соседей с известной классификацией. Решение принимается, например, с помощью «подсчета голосов». Показана довольно высокая точность этого метода.
Как и дискриминантный анализ, метод построения деревьев классификации используется для предсказания величины, измеренной в номинальной шкале по значениям одной или нескольких независимых переменных. Но, в отличие от дискриминантного анализа независимые переменные могут измеряться в любой шкале. Дерево решений представляет собой графическое отображение правил классификации.
Одно из принципиальных свойств дерева классификации – его иерархичность [17]. Например, если известно, что перспективными клиентами являются представители сегмента пустое гнездо[54], то используется правило
Если количество человек в семье равно 2
и возраст главы семьи более 50 лет
и возраст главы семьи менее 60 лет
и доходы больше 10000 р. в месяц
то это перспективный клиент.
Дискриминантный анализ для классификации семей на принадлежащие и не принадлежащие к данному сегменту, дает условие
Если aA+bB=cC<w, то это перспективный клиент, иначе нет.
Важное различие заключается в том, что деревья классификации дают правила с последовательным анализом признаков, а дискриминантный анализ выполняет проверку за один шаг.
Вторая важная черта заключается в высокой гибкости.
○ Переменные могут быть измерены в различных шкалах, и не требуется допущение об их интервальном характере.
○ Используемые условия более гибки. Например, в вышеприведенном правиле определения сегмента используются равенства и неравенства.
Можно делать решения и по линейным комбинациям интервальных переменных. Результат можно назвать частичным дискриминантным анализом, так как одно правило может включать несколько дискриминантных функций.
Наиболее распространенные алгоритмы построения деревьев классификации [17]:
○ CART[55], который ищет все возможные развилки по значениям одной переменной;
○ QUEST[56], реализующий рекурсивный вариант квадратичного дискриминантного анализа;
○ CHAID[57], формирующий не двоичные, а более сложные, многозначные ветвления. Но принципиальных преимуществ это не дает, так как любое ветвление можно представить как набор двоичных.
Построение деревьев классификации выполняется в следующей последовательности.
1. Определяется критерий качества дерева. Это может быть ошибка классификации, но многие программы допускают ввод цены ошибки или ожидаемого результата. Например, при сегментировании рынка продажи товаров по почте возможная реакция адресатов на почтовое предложение[58] может быть
○ неответ, при котором форма терпит убытки на отправку письма;
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.