Анализ качественных признаков (Критерий χ2. Сравнение долей) (Лабораторная работа № 4)

Страницы работы

Содержание работы

Тема:Анализ качественных признаков

 (Критерий χ2. Сравнение долей.)

Критерий χ2 – это непараметрический критерий, является аналогом дисперсионного анализа для качественных признаков.

По имеющимся данным исследования строят таблицу сопряженности. Строки таблицы представляют собой сравниваемые факторы, а столбцы -  возможные исходы эксперимента. Подсчитывают число объектов в каждой строке и каждом столбце. Наблюдаемые значения обозначают буквой О (observed). Таблица сопряженности выглядит следующим образом (Ri – суммы в строках таблицы, Cj – суммы в столбцах таблицы, N – общий объем исследования, r-число строк, c-число столбцов):

О11

О12

O1c

R1

О21

О22

O2c

R2

Or1

Or2

Orc

Rr

C1

C2

Cc

N

Далее подсчитывают с точностью до двух знаков после запятой ожидаемые числа – количество объектов, которое попало бы в каждую клетку, если бы изучаемые факторы не влияли бы на исход. Ожидаемые значения обозначают буквой E (expected). Таблица ожидаемых чисел рассчитывается следующим образом (обратите внимание, что суммы по строкам и столбцам должны сохраниться):

E11=R1∙C1/N

E12=R1∙C2/N

E1c=R1∙Cc/N

R1

E21=R2∙C1/N

E22=R2∙C2/N

E2c=R2∙Cc/N

R2

Er1=Rr∙C1/N

Er2=Rr∙C2/N

Erc=Rr∙Cc/N

Rr

C1

C2

Сс

N

По полученным таблицам рассчитывается значение критерия:

,

где Оij – наблюдаемые значения в клетках таблицы, Еij – ожидаемые значения. Суммирование производится по всем клеткам таблицы.

Применение критерия χ2 правомерно, если ожидаемые числа в любой из клеток больше либо равны 5.

Число степеней свободы ν=(r-1)(c-1).

В случае таблицы 2×2 в формулу вводят поправку Йейтса:

.

Пример. Изучение влияния дополнительного приема эстрогена на риск развития болезни Альцгеймера. В исследовании принимала участие группа из 1124 пожилых женщин, 156 из которых длительное время получали эстроген. Группа наблюдалась в течение пяти лет, регистрировались случаи болезни Альцгеймера. Результаты расчетов:

Рассчитанное значение больше критического, поэтому можем утверждать, что дополнительный прием эстрогена снижает риск развития болезни Альцгеймера (вероятность ошибки менее 0,1%).

Задание 1

1. Синдром внезапной детской смерти — основная причина смерти детей в возрасте от 1 недели до 1 года. Обычно смерть наступает на фоне полного здоровья незаметно, во сне, поэтому определение факторов риска имеет первостепенное значение. Исследователи собрали сведения о 18 955 детях, родившихся в одном из роддомов Окленда, штат Калифорния, с 1960 по 1967 г. Судьбу детей проследили до 1 года. От синдрома внезапной детской смерти умерли 44 ребенка. Данные о предполагаемых факторах риска представлены в таблице. Найдите признаки, связанные с риском синдрома внезапной детской смерти (два по выбору). По некоторым признакам данные отсутствуют, поэтому сумма в третьем столбце может оказаться меньше 44, а в четвертом — меньше 18955.

Фактор

Синдром

Да

Нет

Возраст матери

До 25 лет

25 лет и старше

29

15

7301

11241

Время от окончания предыдущей беременности

Менее 1 года

Более 1 года

23

11

4694

7339

Планировалась ли беременность

Нет

Да

23

5

7654

4253

Курение во время беременности

Да

Нет

24

10

5228

9595

Низкий гемоглобин во время беременности

Да

Нет

26

7

12613

2678

Раса

Белые

Негры

 Другие

31

9

4

12240

4323

2153

1.2. Проводилась оценка эффективности терапии для лечения синдрома хронической обеспокоенности. В исследовании принимало участие 150 человек, 60 из которых получали двухмесячную программу лечения. После  двух месяцев проводилась оценка состояния (ухудшилось, улучшилось, не изменилось). Результаты в таблице:

Терапия

Состояние

Ухудшилось

Не изменилось

Улучшилось

Да

24

11

25

60

Нет

30

31

29

90

54

42

54

150

          Есть статистически значимые различия между группами? Что произойдет, если удвоить количество участников эксперимента при сохранении пропорций между группами? Рассчитайте. 

Оценка и сравнение долей

Пусть имеется выборка из n объектов, при этом m из них обладает каким-то качественным признаком, которого нет у остальных n-m объектов. Тогда доля объектов, выборки, обладающих признаком, вычисляется как p=m/n. Показатель разброса значений – стандартное отклонение доли – вычисляется по формуле: ; стандартная ошибка доли: .

Критерий z для проверки нулевой гипотезы о равенстве долей в двух выборках:

где - выборочные доли, - стандартная ошибка разности долей.

 Объединенная оценка доли:  

Стандартная ошибка разности долей вычисляется:

.

Для нахождения критических значений z необходимо воспользоваться таблицами значений стандартного нормального распределения. При увеличении числа степеней свободы распределение Стьюдента стремится к нормальному, поэтому критические значения z можно найти в последней строке таблицы распределения Стьюдента. Для α =0,05 z0,05=1,96; для α=0,01 z0,01=2,58.

С учетом этой поправки Йейтса формула для расчета z имеет вид:

.

Пример. Применим z-критерий для задачи о влиянии дополнительного приема эстрогена на риск развития болезни Альцгеймера. В группе принимавшей эстроген (n1=156) количество заболевших составило 9 (m1=9). Во второй группе (n2=968) количество заболевших составило 158 (m2=158).

Рассчитанное значение больше, чем z0,01. Поэтому с уровнем значимости 0,01 можем утверждать, что между долями заболевших существуют статистически значимые различия.

Задание 1

Исследовалось влияние экзогенных стероидных гормонов во время беременность у 108 матерей детей с врожденными дефектами. Непреднамеренное использование оральных контрацептивов на ранних сроках беременности рассматривалось как основной фактор воздействия. У матерей больных детей отмечено употребление контрацептивов в 15 случаях, в контрольной группе (также 108 матерей) – в 4 случаях. Есть ли статистически значимые различия между группами?

 

Похожие материалы

Информация о работе