. (3)
Рис. 1. уравнение определяет гиперэллипсоид.
Длина оси гиперэллипсоид задается и его направление, движется на , где и это собственное значение и соответствующий собственный вектор , соответственно.
Простой способ избежать численных проблем, ограничить соотношение между максимальным и минимальным собственным значением так, чтобы значение было меньше заданного порога (в нашем примере, мы использовали ). Когда этот порог превышен, минимальное значение увеличивается таким образом, что отношение было равным порогу и ковариационной матрицей восстановления:
где диагональная матрица, содержащая собственные ограниченные и является матрица, столбцы которой являются соответствующие собственным векторам.
На рисунке 2 показан пример набора данных, которые не могут быть объединены со стандартным алгоритмом GK, из-за численных проблем. Причина в том, что данные образцы в течение трех линейных сегментов полностью коррелируют. Используя описанную выше методику, численные проблемы можно избежать и улучшение алгоритм GK, находясь в предполагаемом разбиение на три линейных сегментов.
Основные направления кластеров идеально совпадают с данными. Эта модель затем объясняет 99,85% дисперсии в данных.
Рис. 2. Пример набора данных с линейными кластерами.
IV.
Проблема переобучения.
Выше модификации алгоритм GK предотвращает работу численных задач. Тем не менее, в результате можно получить кластеры, которые являются чрезвычайно длительны в направлении наибольших собственных значений и имеют мало отношения с реальным распределением данных. Это может привести к переобучения данных и, следовательно, получается плохая модель.
Эта проблема возникает, главным образом, когда количество данных точек в кластере становится слишком небольшой. В таком случае, вычисление ковариационной матрицы не является надежной оценкой исходного распределения данных. Одним из путей решения этой проблемы является ограничение соотношение между максимальными и минимальными собственным значением еще больше, чем описано в предыдущем разделе.
Это позволит предотвратить крайние удлинение кластеров. Другой способ заключается в добавлении масштабной единичной матрицы к ковариационной матрицы. Tadjudin [7] and Friedman [8] описывают несколько различных способов для улучшения оценки ковариации. Вдохновленный этими методами, мы предлагаем следующую оценку для алгоритма ГК:
(4)
где является параметром настройки и является ковариационной матрицей всего набора данных. В зависимости от значения кластеры вынуждены иметь более или менее одинаковую форму.
Где является 1, все ковариационные матрицы равны и имеют тот же размер, что, конечно, ограничивает возможности алгоритма для правильной идентификации кластеров.
Как основан на весь набор данных, его значение не зависит от количества кластеров. Объемы , однако, снижаются по мере возрастания количества кластеров. Это означает, что увеличение количества кластеров делает кластеров круглее. Этот термин, понижает настройка усилия. Формула вес с включенным объем от общего набора данных. Небольшие недостатки этого метода является дополнительным параметром настройки . Однако, при использовании алгоритма GK для извлечения нечетких моделей от автономных данных, как правило, не проблема, чтобы включить дополнительный параметр и настроить его в перекрестной проверке работы. Кроме того, ожидается, что выполнение алгоритма кластеризации уменьшается, когда имеется достаточно данных обучения для построения ковариационной матрицы.
V.
Модификация алгоритма GK.
Полный алгоритм GK, в том числе двух указанных модификаций приведен ниже.
Учитывая набор данных , выбирают стандартные параметры , , , , пороговое условие номера и весовые параметры . Инициализация раздела матрицы и вычисления ковариационной матрицы всего набора данных.
Повторите эти действия для
Шаг 1: Средства вычисления кластера:
Шаг 2: Вычислить ковариационные матрицы кластера:
Добавить масштабирование единичной матрицы:
Извлечение собственных и собственные векторы для .
Находим и набор:
для которых
Реконструкция по
Шаг 3: Вычислить расстояния:
Шаг 4: Обновление раздела матрицы:
для
если для ,
иначе
для и
вместе с иначе.
до тех пор пока .
В двойной точности с плавающей точкой реализации (например, в MATLAB), пороговое условие числа, как правило, быть установлены в большом количестве, например, .
Установка весового параметра зависит от приложения и некоторые эксперименты могут быть необходимы, чтобы найти правильное значение. MATLAB код алгоритма приведен в Приложении.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.