Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами.
Допустим, проводится независимое измерение различных параметров у одного типа объектов. Из этих данных можно получить качественно новую информацию - о взаимосвязи этих параметров.
Например, измеряем рост и вес человека, каждое измерение представлено точкой в двумерном пространстве:
Несмотря на то, что величины носят случайный характер, в общем наблюдается некоторая зависимость - корреляция.
В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается). Возможны также такие случаи:
Отрицательная корреляция: |
Отсутствие корреляции: |
Корреляцию необходимо охарактеризовать численно, чтобы, например, различать такие случаи:
|
|
Для этого вводится коэффициент корреляции.
Что же такое коэффициент корреляции?
Предположим, что мы измеряем две величины и
,
характеризующие два различных экспериментальных образца под номерами 1 и 2.
Обозначим результаты измерений на первом образце
, а на
втором -
.
Можно проделать эти операции для любого числа
образцов, например и
получить набор
парных
наблюдений
,
,…,
.
Обозначим среднее значение величин - через
, а
через
и
рассчитаем отклонения каждой пары наблюдений от их средних. Так для
-го
образца они равны:
.
Эти отклонения можно представить точками
на диаграмме: пересечению осей соответствует точка
- нуль
отклонений. Проделав это для конкретного множества данных, получим картину
рассеяния данных.
![]() |
Наши оси делят плоскость на четыре квадранта, занумерованных, как показано на рисунке. Большинство наблюдений лежит в I и III квадрантах, и лишь немногие — во II и IV. Наблюдения в I и III квадрантах соответствуют значениям х выше среднего, связанным со значениями у выше среднего, и значениям х ниже среднего, связанным со значениями у ниже среднего.
Удобно ввести сокращенные обозначения для
отклонений величин от средних значений. Отклонения для -го
образца запишутся в виде
и
, т.е.
Для всех точек из I квадранта и
-
положительны, и потому их произведение -
также положительно.
В III квадранте и
-
отрицательны, так что их произведение снова положительно.
Для тех немногих точек, которые лежат во II и IV квадранте, одно из отклонений положительно, а другое отрицательно, и потому их произведение отрицательно.
Если сложить эти
произведения для всех п точек и обозначить
результат через получим:
, или
Величина называется суммой произведений отклонений от среднего. Если точки попадают преимущественно в I
и III квадранты, сумма велика и положительна, так как положительно
большинство слагаемых. Если большинство точек лежит во II и IV квадрантах, сумма велика и отрицательна. Если же точки рассеяны
равномерно по всем квадрантам, то слагаемые стремятся взаимно сократить друг друга, и сумма
оказывается близкой к нулю. Ясно, что
значение
зависит
как от значения
, так
и от «разброса» наблюдаемых значении х и
у.
Чтобы получить
меру этой связи, независимую от разброса
и числа наблюдении, разделим 5.\т на меру разброса, которая сама растет с числом наблюдений. Обычно в качестве таковой берут меру, построенную на сумме
квадратов отклонений значений х и у от их средних, т. е. и
.Мы же фактически будем делить на корень квадратный из произведения
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.