Изучение методов визуализации и кластеризации многомерных данных

Страницы работы

Содержание работы

МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ

(ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Кафедра Управления и Информатики

Лабораторная работа № 2

Изучение методов
ВИЗУАЛИЗАЦИИ И КЛАСТЕРИЗАЦИИ МНОГОМЕРНЫХ ДАННЫХ

Выполнили

Студенты

Архипов А. Е.

Попов И. О.

Группа

А-01-03

Дата

08.04.06

Принял

Преподаватель

Дата


Исходные данные

EU

A

B

D

DK

E

EL

F

FIN

I

IRL

NL

P

S

UK

New S&E grads

10,3

7,1

9,7

8,2

8,3

9,9

3,8

18,7

17,8

5,6

23,2

5,8

6,2

11,6

16,2

Pop with 3-rd education

21,22

14,52

27,82

23,84

26,48

23,06

17,08

22,98

32,47

10,29

22,24

24,02

10,17

29,71

28,63

Lifelong learning

8,5

7,8

7,3

5,2

20,8

4,7

1,4

2,7

19,3

5,1

5,2

16,3

3,3

21,6

21,7

Empl med/high-tech manufacturing

7,57

6,48

6,57

11,21

6,99

5,46

2,22

7,16

7,44

7,42

7,28

4,29

3,57

7,9

7,18

Empl high-tech services

3,61

3,03

4,08

3,21

4,94

2,62

1,7

4,08

4,4

3,05

4,11

4,16

1,43

5,13

4,75

Publik R&D/GDP

0,67

0,65

0,56

0,72

0,75

0,44

0,48

0,77

0,98

0,53

0,33

0,88

0,58

0,94

0,66

Buisness R&D/GDP

1,28

1,14

1,45

1,8

1,32

0,52

0,19

1,36

2,68

0,53

0,88

1,14

0,17

2,84

1,21

EPO high-tech patents/pop

27,8

17

21,9

43,7

32,2

3,1

0,6

27,8

137,6

6,2

25,3

57,9

0,9

95,1

27,5

USPTO high-tech parents/pop

12,4

8,1

13,9

16,4

22,7

1,4

0,4

14

41,6

4,1

6,1

18,6

0

47,3

15,1

SMEs innov in-hous

44

59,1

29,4

58,7

59

21,6

21

36

27,4

44,4

62,2

51

21,8

44,8

35,8

SMEs innov co-op

11,2

12,9

8,9

14,7

37,4

7

6,5

12

19,9

4,7

23,2

13,8

4,5

27,5

15,7

Innovation expenditure

3,7

3,5

2,1

3,9

4,8

2,4

1,6

3,9

4,3

2,6

3,3

3,8

1,7

7

3,2

High-tech venture capital/GDP

0,24

0,14

0,44

0,07

0,46

0,19

0,16

0,24

0,57

0,2

0,31

0,23

0,03

0,39

0,24

New capital

1,73

0,6

2,37

0,95

0,14

7,92

1,57

0,82

0,38

0,67

1,21

5,97

0,22

3,07

1,01

New-to-market products

6,5

5,6

2,6

1,7

5,1

9,8

6,5

7,9

7,3

13,5

8,4

6,9

7,2

6,9

6,7

Home Internet access/household

37,7

47,2

36,4

38,4

58,6

24,7

9,9

30,1

50,2

33,5

47,6

63,8

26,1

60,7

49,3

ICT expenditures/GDP

6,93

6,3

7,32

6,89

7,42

4,41

5,09

7,35

6,74

5,17

5,23

8,3

5,44

9,85

8,62

Manuf high-tech value-added share

10,1

9

10,7

6,7

10,7

5,6

10,1

13,2

19,3

6,8

25,4

9,7

5,3

15,3

14,8


Трехмерная гистограмма для исследуемых данных

Иерархическая кластеризация

Исследуем зависимость результатов иерархической кластеризации от выбора меры близости.

а)  мера близости: евклидово расстояние; правило объединения: одиночная связь

Можно выделить 3 кластера:

1.  D + UK + A + B + F + EU

2.  I + EL + P + E

3.  S + FIN

б)  мера близости: манхэттенское расстояние; правило объединения: одиночная связь

Можно выделить 3 кластера:

1.  D + UK + A + B + F + EU

2.  I + EL + P + E

3.  S + FIN

в)  мера близости: расстояние Чебышева; правило объединения: одиночная связь

Можно выделить 2 кластера:

1.  DK + IRL + D + I + UK + A + B + F + EU

2.  EL + P + E

Из приведенных диаграмм видно, что с изменением выбора меры близости количество кластеров, а так же их состав меняется не значительно, однако величина расстояния между кластерами изменяется существенно, т.е. картину можно сделать более наглядной.

Исследуем зависимость результатов иерархической кластеризации от правила объединения кластеров.

а)  мера близости: евклидово расстояние; правило объединения: одиночная связь

Можно выделить 3 кластера:

1.  D + UK + A + B + F + EU

2.  I + EL + P + E

3.  S + FIN

б)  мера близости: евклидово расстояние; правило объединения: полная связь

Можно выделить 4 кластера:

1.  I + UK + A + B + F + EU

2.  EL + P + E

3.  IRL + DK + NL + D

4.  S + FIN

в)  мера близости: евклидово расстояние; правило объединения: невзвешенная средняя связь

Можно выделить 4 кластера:

1.  IRL + D + I + UK + A + B + F + EU

2.  EL + P + E

3.  DK + NL

4.  S + FIN

г)  мера близости: евклидово расстояние; правило объединения: невзвешенная центроидная связь

Можно выделить 3 кластера:

1.  IRL + I + D + UK + A + B + F + EU

2.  EL + P + E

3.  S + FIN

д)  мера близости: евклидово расстояние; правило объединения: метод Уорда

Можно выделить 4 кластера:

1.   I + UK + A + B + F + EU

2.  IRL + DK + NL + D

3.  EL + P + E

4.  S + FIN

Из приведенных диаграмм видно, что с изменением выбора правила объединения количество кластеров, а так же их состав могут изменяться, однако перемещаются между выделяемыми кластерами только отдельные признаки, т.е. картина в целом значительно не меняется. Выбирая различные правила объединения, можно сделать картину более наглядной.

Диаграмма, полученная при мере близости - евклидово расстояние и правиле объединения - метод Уорда является наиболее предпочтительной. Дальнейший анализ будем производить для данного случая

Диаграмма изменения расстояний при объединении кластеров:

Похожие материалы

Информация о работе