Корреляционно-регрессивный анализ. Корреляционный анализ. Понятие об эмпирических формулах. Метод наименьших квадратов

Страницы работы

Фрагмент текста работы

Корреляционно-регрессивный анализ

Корреляционный анализ

Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами.

Допустим, проводится независимое измерение различных параметров у одного типа объектов. Из этих данных можно получить качественно новую информацию - о взаимосвязи этих параметров.

Например, измеряем рост и вес человека, каждое измерение представлено точкой в двумерном пространстве:

положительная корреляция роста и веса

Несмотря на то, что величины носят случайный характер, в общем наблюдается некоторая зависимость - корреляция.

В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается). Возможны также такие случаи:

Отрицательная корреляция:

отрицательная корреляция

Отсутствие корреляции:

отсутствие корреляции

Корреляцию необходимо охарактеризовать численно, чтобы, например, различать такие случаи:

низкая корреляция

высокая корреляция

Для этого вводится коэффициент корреляции.

Что же такое коэффициент корреляции?

Предположим, что мы измеряем две величины  и , характеризующие два различных экспериментальных образца под номерами 1 и 2. Обозначим результаты измерений на первом образце , а на втором - .

Можно проделать эти операции для любого числа образцов, например и получить набор парных наблюдений , ,…, .

Обозначим среднее значение величин - через , а через  и рассчитаем отклонения каждой пары наблюдений от их средних. Так для -го образца они равны:

.

Эти отклонения можно представить точками на диаграмме: пересечению осей соответствует точка - нуль отклонений. Проделав это для конкретного множества данных, получим картину рассеяния данных.

 


Наши оси делят плоскость на четыре квадранта, занумерованных, как показано на рисунке. Большинство наблюдений лежит в I и III квадрантах, и лишь немногие — во II и IV. Наблюдения в I и III квадрантах соответствуют значениям х выше среднего, связанным со значениями у выше среднего, и значениям х ниже среднего, связанным со значениями у ниже среднего.

Удобно ввести сокращенные обозначения для отклонений величин от средних значений. Отклонения для -го образца запишутся в виде и , т.е.

Для всех точек из I квадранта и - положительны, и потому их произведение - также положительно.

В III квадранте и - отрицательны, так что их произведение снова положительно.

Для тех немногих точек, которые лежат во II и IV квадранте, одно из отклонений положительно, а другое отрицательно, и потому их произведение отрицательно.

Если сложить эти произведения для всех п точек и обозначить результат через получим:

, или

Величина называется суммой произведений отклонений от среднего. Если точки попадают преимущественно в I и III квадранты, сумма велика и положительна, так как положительно большинство слагаемых. Если большинство точек лежит во II и IV квадрантах, сумма велика и отрицательна. Если же точки рассеяны равномерно по всем квадрантам, то слагаемые стремятся взаимно сократить друг друга, и сумма оказывается близкой к нулю. Ясно, что значение зависит как от значения , так и от «разброса» наблюдаемых значении х и у.

Чтобы получить меру этой связи, независимую от разброса и числа наблюдении, разделим 5.\т на меру разброса, которая сама растет с числом наблюдений. Обычно в качестве таковой берут меру, построенную на сумме квадратов отклонений значений х и у от их средних, т. е. и .Мы же фактически будем делить на корень квадратный из произведения

Похожие материалы

Информация о работе