Корреляция. Корреляционный анализ. Коэффициент корреляции. Проверка значимости коэффициента корреляции, страница 2

Чтобы понять, почему μ отражает наличие или отсутствие связи между СВ, сравним два случая.

1. Пусть имеет место связь между случайными величинами (рост-вес) и пусть для определенности эта связь прямая: чем больше  X, тем больше  Y. Тогда в числителе дроби будут преобладать слагаемые типа (+)(+) и (-)(-): если у человека рост выше среднего в генеральной совокупности (хi – а)>0, то и вес чаще всего будет больше среднего веса (yi - b)>0, а если рост ниже среднего, то и вес ниже среднего, и тогда  отклонения и роста и веса – отрицательные. Важно то, что эти оба  слагаемые – положительные, и они суммируются. Будут встречаться и слагаемые типа (+)(-) – когда человек высокий и худой, и (-)(+) – когда человек ниже среднего рост, а вес выше среднего.  Но таких слагаемых будет значительно меньше. Поэтому, имея отрицательный знак, они понижают положительную сумму, которую дают преобладающие объекты наблюдения, но не могут на нее значительно повлиять. В итоге при наличии соизменения  в числителе накопится некоторая  положительная сумма.

2. Если же связи и соизменения нет, то слагаемые всех четырех типов в числителе должны встречаться равновероятно, поскольку  конкретные значения хi и yi отклоняются от своих а и b в меньшую или большую сторону независимо друг от друга. Тогда число положительных слагаемых будет равно числу отрицательных слагаемых. Несмотря на то,  что по величине все эти слагаемые будут очень разными у разных объектов наблюдения, в итоге при большом количестве слагаемых в генеральной совокупности в числителе  получится нуль. Поэтому результат m = 0 однозначно говорит об отсутствии какой-либо связи между рассматриваемыми случайными величинами.

Есть еще один наглядный способ объяснить, почему при отсутствии связи сумма в числителе, а, значит, и коэффициент ковариации m, будут равны 0. Если на плоскости по двум перпендикулярным осям координат располагать значения двух случайных величин Х и Y, то каждый объект наблюдения со своими Х и Y даст на графике отдельную точку – рис. 14.2а. Много объектов дадут много точек. Совокупность этих точек, каждая из которых представляет отдельный объект наблюдения, и называется корреляционным облаком. Центром такого корреляционного облака является точка с координатами a и b. Важно отметить тот факт, что плотность точек в этом облаке неодинакова: она должна быть больше ближе к центру и уменьшаться к периферии, поскольку  обе случайных величины имеют нормальное распределение.

Если теперь установить новые оси  координат с началом в центре облака – рис.2б, то становится очевидным, что точки, составляющие облако,  равномерно распределены по четырем квадрантам, причем в I и III точки дадут положительные слагаемые в формуле для μ, а в II и IV – отрицательные. Поэтому при  равной площади четырех частей облака и симметричной плотности точек в них,  числитель в формуле для m будет равен нулю. Чтобы коэффициент ковариации был не равен нулю, корреляционное облако должно быть вытянутым, либо в квадрантах I – III ( тогда m будет иметь знак плюс – рис. 2в),  либо в квадрантах II – IV (тогда,  в числителе будет накапливаться отрицательная сумма и m будет иметь знак  "минус" – рис.2г). Отметим, что  вытянутость эта должна быть "по диагонали". А вытянутость по какой-либо оси есть просто влияние выбранного масштаба измерения. Если его  изменить, то вытянутый по любой оси овал можно превратить в круг.

Y

 

Y