Непараметричні тести. Дисперсійний аналіз. Факторний аналіз, страница 5

l Пояснимо, яким чином сформована таблиця:

l У першому стовпці розташований номер кластера - групи, дані якої наведені в рядку. Наприклад, перший кластер на 80% складається з чоловіків. 90% першого кластеру потрапляють у вікову категорію від 30 до 50 років, а 12% респондентів вважає, що пільги дуже важливі. І так далі.

l Спробуємо навести портрети респондентів кожного кластеру.

l Перша група - здебільшого чоловіки зрілого віку, які займають керівні позиції. Соцпакет (MED, LGOTI TIME - вільний час) їх не цікавить. Вони вважають за краще отримувати гарну зарплату, а не допомогу від працедавця.

l Група два навпаки віддає перевагу соцпакету. Її утворюють в основному респонденти "у віці", що займають невисокі пости. Зарплата для них безумовно важлива, але є й інші пріоритети.

l Третя група найбільш "молода". На відміну від попередніх двох, в наявності - інтерес до можливостей навчання й професійного зростання.

Як виникають помилки кластеризації?

Кількість кластерів.

Головне питання кластерного аналізу – питання про кількість кластерів. Тут відсутні чіткі правила, що дозволяють швидко прийняти рішення, але можна керуватися наступними.

l У ієрархічній кластеризації в якості критерію можна використовувати відстані, за якими об'єднують кластери.

l У неієрархічній кластеризації зображують графік залежності відношення сумарної внутрішньогрупової дисперсії до міжгрупової дисперсії від кількості кластерів. Точка, в якій спостерігається вигин або різкий поворот, вказує на прийнятну кількість кластерів.

Відносні розміри кластерів мають бути досить виразними. (Безглуздо створювати кластер з одним випадком).

Приклад ієрархічного кластерного аналізу

l Масив st01.sav

l Ознаки 210-214, що визначають міру згоди з перерахованими моральними принципами

l Метод Варда

l Метрика - квадрат евклідової відстані

Інтерпретація результатів кластерного анализу:

1)  кількість спостережень, що підлягають кластеризації, зазначена в таблиці
Case Processing Summary

Case Processing Summary a,b

Cases

Valid

Missing

Total

N

Percent

N

Percent

N

Percent

1572

93,6

108

6,4

1680

100

a      Squared Euclidean Distance used 

b      Ward Linkage

2) Визначення кількості кластерів за таблицею Agglomeration Schedule

Кількість кластерів = N - S, де N - кількість анкет, що підлягали кластеризації, S - крок, після якого спостерігається скачок коефіцієнта. Кількість кластерів = 1572 - 1568 = 4.

Інтерпретація кластерів – опис кластерних центроїдів

N кластера

 Обсяг класте-ра

210. Око за око

211. Не обдуриш - не проживеш

212. Варварство викорінюєть-ся варварством

213. Кожен сам за себе

214. Людина людині - вовк

1

779

4,99

4,06

4,25

2,29

2,48

2

336

6,06

5,58

5,71

5,80

4,87

3

325

4,47

3,93

3,80

5,12

3,86

4

132

1,77

1,97

1,46

2,33

1,75

Оцінка надійності й достовірності. Маючи декілька висновків, зроблених в процесі кластерного аналізу, не слід приймати певне рішення про кластеризацію, не виконавши оцінку надійності й достовірності цього рішення. Формальні процедури оцінки надійності й достовірності рішень кластеризації досить складні і не завжди виправдані. Проте наступні процедури забезпечать адекватну перевірку якості кластерного аналізу.

l Виконуйте кластерний аналіз на підставі одних і тих же даних, але з використанням різних способів вимірювання відстані. Порівняйте результати, отримані на основі різних вимірювань відстані, щоб визначити, наскільки співпадають отримані результати.

l Використовуйте різні методи кластерного аналізу і порівняйте отримані результати.

l Розбийте дані на дві рівні частини випадковим чином. Виконайте кластерний аналіз окремо для кожної половини. Порівняйте кластерні центроїди двох підвибірок.

l Випадковим чином видаліть деякі змінні. Виконайте кластерний аналіз за скороченим набором змінних. Порівняйте результати з отриманими на основі повного набору змінних.

l У неієрархічній кластеризації рішення може залежати від порядку випадків в наборі даних. Виконайте аналіз кілька разів, змінюючи порядок випадків, до отримання стабільного рішення.

Висновки:

l Кластерний аналіз застосовують для групування (класифікації) об'єктів у відносно однорідні групи. Утворення кластерів залежить від наявних даних, а не визначається заздалегідь.

l Гомогенні респонденти (за певними відповідями) об'єднуються в одну групу, гетерогенні – у різні.

l Кластерні центроїди представляють середні значення об'єктів, що містяться в кожній змінній, які були основою кластеризації. Кластерні центроїди дозволяють описати кожен кластер.

l Кластерний аналіз є описовою процедурою, він не дозволяє зробити статистичні висновки, але надає можливість провести своєрідну розвідку - вивчити структуру досліджуваної сукупності.

l На відміну від факторного аналізу, кластерний аналіз може бути застосований для різних типів шкал.

Література:

l  Паніотто В.І., Максименко В.С., Харченко Н.М. Статистичний аналіз соціологічних даних. – К.:  «КМ Академія», 2004. – С. 232-241.

l  Ядов В.А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности. – М.: “Добросвет”, 1998.