Непараметричні тести. Дисперсійний аналіз. Факторний аналіз, страница 4

l Факторний аналіз дозволяє виявити латентні змінні, що обумовлюють досліджуване явище, а кластерний - сконструювати емпіричну типологію (тобто на основі емпіричних даних виявити групи респондентів, схожих між собою, але відмінних від інших груп).

l Факторний аналіз застосовується лише для роботи з кількісними даними (метричними, інтервальними, псевдоінтервальними), а кластерний – для будь-яких даних.

Головна ідея кластерного аналізу

l Мета кластеризації - групування схожих об'єктів. Тому для того, щоб оцінити, наскільки вони схожі або несхожі, необхідно використовувати деяку одиницю виміру.

l  Найчастіше в якості такої міри використовують відстань між двома об'єктами. Об'єкти з меншими відстанями між собою є більш схожими, ніж об'єкти з великими відстанями.

Алгоритм процедури кластерного аналізу

l 1. Визначення сукупності змінних для групування (виокремлення змінних, що є значущими для сегментації респондентів).

l 2) Вибір мір відстані (для порівняння об'єктів між собою).

l 3) Визначення методу кластеризації.

l 4) Прийняття рішення щодо кількості кластерів.

l 5) Інтерпретація виокремлених кластерів.

l 6) Оцінка достовірності й надійності кластеризації.

l Ще одним етапом процедури кластерного аналізу є нормалізація даних (використовується для того, щоб зробити шкали співставними за розмірністю, звести до єдиних інтервалів за допомогою z-нормалізації).

Визначення мір відстані

l Реалізується шляхом розрахунку евклідової відстані чи квадрата евклідової відстані.

l Евклідова відстань – найменша відстань між двома точками.

Умови використання

l На відміну від факторного аналізу, кластерний аналіз може бути застосований для різних типів шкал.

Зверніть увагу!

l Кластерний аналіз є описовою процедурою, він не дозволяє зробити статистичні висновки, але надає можливість провести своєрідну розвідку - вивчити структуру досліджуваної сукупності.

Навіщо соціологу кластерний аналіз?

У соціології кластерний аналіз застосовують для створення емпіричних типологій.                                         

Домашнє завдання.

        Прочитати: Ядов В.А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности. – М.: “Добросвет”, 1998. – С. 320-333.

        Вміти відповісти на питання: Що таке теоретична типологізація? Як створюють теоретичну типологію? Які приклади теоретичних типологій Ви знаєте? Що таке емпірична типологизація? Як конструють емпіричну типологію? Які методи утворення емпіричної типології застосовуються в соціологічних дослідженнях?

Змінні, які є основою для кластеризації, слід обирати:

l виходячи з досвіду попередніх досліджень;

l  теоретичних передумов;

l  гіпотез, що перевіряються;

l  спираючись на компетентність дослідника.

Ключові терміни

l Кластер (cluster) - скупчення, згусток. Кластером називають групу схожих об'єктів.

l Кластерні центроїди представляють середні значення в кластері по кожній змінній, які були основою кластеризації.

l Кластерні центроїди дозволяють описати «середнього представника» кожного кластеру.

СТАТИСТИКИ, ПОВ'ЯЗАНІ З КЛАСТЕРНИМ АНАЛІЗОМ

l План агломерації, об'єднання (agglomeration schedule). Дає інформацію про об'єкти (події, випадки), що мають об'єднатися у процесі ієрархічної кластеризації.

l Кластерний центроїд (cluster centroid). Середнє значення змінних для усіх випадків чи об'єктів у конкретному кластері.

l Кластерні центри (cluster centers). Вихідні початкові точки в неієрархічній кластеризації. Кластери утворюють навколо цих центрів, або зерен кластеризації.

l Приналежність кластеру (cluster membership). Вказує кластер, якому належить кожен випадок або об'єкт.

l Деревовидна діаграма (dendrogram).  Її також називають деревовидний граф – графічний засіб для показу результатів кластеризації. Вертикальні лінії представляють об'єднувані кластери. Положення вертикальної лінії на шкалі відстані (горизонтальна вісь) показує відстані, за якими об'єднували кластери. Деревовидну діаграму читають зліва направо.

Найбільш поширені методи кластерного аналізу

l Ієрархічні методи

l Неієрархічні методи (тобто методи k -середніх)

Ієрархічні методи кластеризації

l Агломерaтивні (AGNES): кластери групуються, об'єднуються (від множинності до єдності).

l Divisive Analysis (DIANA): кластери роз'єднуються (з цілого на частини).

Ці методи є наглядними: існує графік дендрограма, що показує кроки процесу об'єднання/роз'єднання кластерів.

У пакеті SPSS можливо реалізувати агломеративні методи кластеризації.

Неієрархічні методи

l Використовують для великих масивів даних.

l Мають певні недоліки:

Необхідно знати певну кількість кластерів;

Необхідно задавати кластерні центри;

Картина кластеризації дуже мінлива,

неоднозначна, ненадійна.

Кластерний аналіз не є статистичним методом. Це метод експлораторного аналізу. В якості гіпотези дослідник задає ознаки, які є основою диференціації досліджуваних об'єктів, тобто припускає, що є причиною розподілу досліджуваної сукупності на певні типии

Приклад.

l     Завдання - створення типології ціннісних орієнтацій студентства.

l     Метод - кластерний аналіз.

l     Вихідні дані - оцінка значущості термінальних й інструментальних цінностей (див.массив st06.sav, ознаки 52-70 й 71-97)

Приклад застосування кластерного аналізу

l Припустимо, що Ви провели анкетування співробітників і намагаєтесь визначити, як можна керувати персоналом найефективніший чином. Тобто Ви бажаєте розподілити співробітників на групи, а для кожної з них виділити найбільш ефективні важелі управління. При цьому відмінності між групами мають бути очевидними, а усередині групи респонденти мають бути максимально схожими.

Для вирішення завдання слід застосувати кластерний аналіз. Припустимо, що в результаті кластеризації були виділені три групи, тоді для вивчення респондентів, що потрапили в кожен кластер, отримаємо таблицю наступного змісту: