Алгоритм
1.1 Назначение алгоритма
Алгоритм предназначен для оптимальной группировки исходных данных на группы (таксоны) в пространстве показателей . Группировка осуществляется на различное количество групп в некотором диапазоне. В каждую группу объединяются "похожие" по описанию X реализаций. Подсчитывается модифицированный критерий Фишера из дисперсионного анализа, позволяющий определить также и наилучшее количество групп при таксономии.
1.2 Описание алгоритма
Имеется матрица исходных данных , где NO – объем выборки, a NP - общее количество показателей (входных и выходных). Необходимо для каждого значения числа групп K в заданном диапазоне осуществить разбиение NO исходных объектов на K групп так, чтобы в каждую группу вошли объекты, имеющие сходные (в среднем) значения показателей . Необходимо также рассчитать дисперсионные критерии качества группировки при различных значениях K с целью выбора исследователем и наилучшего значения K.
Задача в целом решается по следующей схеме:
1) вычисляется среднеквадратическое отклонение значений каждого из NP исходных факторов ;
2) вычисляется матрица NOх NO взаимных "расстояний" между исходными объектами;
3) для каждого значения числа групп K в диапазоне группирование начинается со случайного выбора K из NO исходных объектов в качестве "центров классов";
4) все NO исходных объектов перераспределяются по группам по принципу "ближайшего центра";
5) во вновь сформированных группах заново определяются "центральные" объекты;
6) пункты 4-5 последовательно повторяются до тех пор, пока объекты не перестанут перераспределяться;
7) при заданном K результаты получившейся группировки объектов печатаются;
8) для каждого K печатаются значения дисперсионных критериев качества группировки.
1.3 Математическая постановка и описание алгоритма
Дано:
- - матрица исходных данных, где NO - число объектов, а NP - общее число всех факторов;
- информация о типе (количественный или дискретный) каждого Xj;
- априорный информационный вес Wj для каждого ;
- указатель типа метрики - евклидова норма или средне-модульное расстояние.
Требуется осуществить такое распределение NO исходных объектов по K классам, чтобы минимизировать
, (1)
где - число объектов в -м таксоне, а () - расстояние i-го объекта -го таксона до „центрального” объекта этого таксона. Под „центральным” объектом понимается тот из объектов, для которого величина минимальна. Центральный объект наиболее близок к «центру тяжести» таксона.
Расстояние вычисляется в евклидовой метрике
, (2)
где
, (3)
, (4)
, (5)
или согласно среднемодульному принципу
(6)
формулы (1) и (6) справедливы лишь для количественных .
Если какой-то x дискретный, то соответствующее слагаемое в формулах (1) и (6) имеет вид
ì 0, при x
= í
î W, при x
Здесь уже - значение j-й координаты у «центрального» объекта -й группы.
Нетрудно видеть, что значение F0 при увеличении монотонно убывает. Для сравнения между собой качества результатов таксономии при различных значениях К воспользуемся критерием дисперсионного анализа, который имеет вид:
F= , (7)
Здесь Q - величина межгруппового разброса, a Q - величина среднего внутригруппового разброса реализации. При конкретном значении K имеем Q= FO(K), и Q F(K). Здесь FO(1) и FO(K) - значения критерия FO, определенные по (1) при К =1 и при заданном значении соответственно. Чем больше F, тем выше качество таксономии. В качестве другого обобщенного критерия качества таксономии может быть взята относительная разность величины F и критического значения F определенному по таблицам распределения Фишера при (K - I) и (NO - K) степенях свободы и заданной доверительной вероятности (в программе =0,95):
FD= (8)
Чем больше FD, тем выше качество таксономии.
При заданном числе групп К алгоритм реализует итерационную процедуру локальной оптимизации критерия качества
Для повышения качества решения в программе реализуется (IR • К) различных локальных оптимизаций при одном K с выбором наилучшего решения, величина IR задается.
Значения F - наилучших группировок при разных K запоминаются. В конце решения задачи рассчитываются и печатаются величины для различных значений К.
Окончательно следует выбирать тот вариант группировки (то значение K), при котором величины максимальны.
Программа обеспечивает такое распределение объектов по K классам, чтобы минимизировать FO - сумму межклассовых и внутриклассовых расстояний между объектами ri (V).
Алгоритмом предусматривается последовательное оптимальное разбиение совокупности районов на К = 2, 3, 4, 5 и т. д. классов. Качество таксономии каждый раз оценивается двумя критериями:
F - критерий дисперсионного анализа;
FD - обобщенный критерий таксономии, учитывающий число степеней свободы системы и заданную доверительную вероятность g (задана g = 0,95).
Чем выше значения критериев F и FD, тем выше качество таксономии.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.