Надежность статистической модели при проверке большого числа гипотез

Страницы работы

Содержание работы

Ивашкевич Людмила

МО-201

СОЦИС, 1992 г., №2

Т.В. ХАЧАТУРОВА

НАДЕЖНОСТЬ СТАТИСТИЧЕСКОЙ МОДЕЛИ ПРИ ПРОВЕРКЕ БОЛЬШОГО ЧИСЛА ГИПОТЕЗ

Статистические пакеты, реализующие разнообразные наборы методик, делают массовым использование статистических методов. Первый тип стратегий представляет собой набор отдельных гипотез, мало исчерпывающих исходную информацию; второй характеризуется априорным отсутствием гипотетической системы и проведением ее генерации; в третьем случае имеется целостная гипотетическая система, без представления о методах анализа данных; четвертый тип — полное управление обработкой данных на основе предметной модели. Применяя ЭВМ, исследователи натолкнулись на возможность другого подхода: до выдвижения гипотезы автоматически перебирается и просеивается огромное количество моделей (уравнений связи, видов классификации и др.), с тем, чтобы оставить для изучения наиболее перспективную из них.

Поясним сказанное на примерах.

1. Допустим, проведены социологические обследования 1 тыс. предприятий. Анкета каждого предприятия содержит 230 показателей: в том числе 30 — характеристики 30 профессий (показатель текучести кадров по каждой профессии); 200 — различные демографические показатели, характеристики условий труда и быта. Социолог, пытаясь определить пути наиболее эффективного влияния на текучесть, рассматривает уравнения линейной регрессии вида у — а + bx1 + cx2, где у — показатель текучести по какой-либо профессии, х1, X2 — две какие-либо характеристики из 200 упомянутых выше входных показателей. Перебрав все возможные уравнения такого вида (а их — 597000), он оставляет те, которые дают достаточно высокий множественный коэффициент корреляции (например, R > 0,85). (Заметим, что на ЭВМ для решения этой задачи потребуется несколько минут.) Для каждого отобранного уравнения такая характеристика надежности, как уровень значимости у множественного коэффициента корреляции, определяется согласно у = Р(F2 n_3 ≥ (R2 / (1- R2 ))x(n-3)/2), где R — множественный коэффициент корреляции, п — 10000 — число наблюдений, F2 n_3 — случайная величина, имеющая распределение Фишера с числом степеней свободы 2, п - 3. Очевидно, что даже при малом значении у вероятность ошибки первого рода хотя бы для одного из отобранных уравнений значительна при большом числе рассматриваемых уравнений. Таким образом, независимые выборки используются для взаимного контроля получении: на них результатов.

2. Допустим, проведено социологическое обследование, опрошены 1 тыс. респондентов. Каждая анкета содержит 200 показателей, измеренных в номинальной или ранговой шкале. Социолог строит попарные таблицы сопряженности (таких таблиц — 19900) и отбирает те пары показателей, которые, по критерию хи-квадрат, дают наличие связи. 1 тыс. наблюдений достаточно, чтобы по критерию хи-квадрат подтвердить наличие связи между двумя показателями. Но вероятность ошибки первого рода хотя бы для одной из отобранных пар велика из-за большого количества проверяемых, гипотез. Снизить ее можно, проведя расчеты не на одной выборке, а на нескольких независимых выборках. Рассмотренная ситуация характерна для исследовательской стратегии, в которой отсутствует априорная гипотетическая система и проводится ее генерация. Алгоритмы использования независимых выборок для повышения надежности статистических выводов могут быть встроены в обычные статистические пакеты и выполняться автоматически. Расчеты при этом усложняются, но выводы, полученные на их основе, делаются более корректными. В качестве иллюстрации такого подхода рассмотрим применение контрольных выборок к анализу многомерных таблиц сопряженности, а именно, к детерминационкому анализу, который широко используется при изучении социальноэкономической информации.

Методом детерминационного анализа социолог при помощи ЭВМ отбирает и интерпретирует такие классы объектов, в которых «выходной» признак объекта принимает интересующее его значение с заданной вероятностью (не меньше заданного уровня — уровня детерминации).

Таблица 3

Количество выборок, достаточное для восстановления вероятности ошибки первого рода до величины 0,05

К

100

1000

10000

20000

50000

100000

200000

600000

А

3

4

5

5

5

5

6

6

В общем случае, при отборе моделей на основании какого-либо статистического критерия, среди отобранных оказываются как адекватные так и неадекватные. Первые удовлетворяют критерию из-за того, что соответствуют распределению генеральной совокупности. Вторые – из-за того, что при использовании критерия возникла ошибка первого рода. Когда моделей много, неадекватные могут появляться среди выбранных с вероятностью, близкой к 1. (см. табл. 3). Если провести анализ на контрольной выборке, ситуация повторится: множество выбранных моделей будет состоять из адекватных и неадекватных. Но набор адекватных моделей с больной вероятностью совпадает для А независимых выборок. (Вероятность не выбрать адекватную модель: 1 – (1 – В)А , где В – вероятность ошибки второго рода для используемого критерия.) В то же время вероятность выбора неадекватной модели для всех А контрольных выборок быстро уменьшается с ростом А (см. табл. 3). Программная реализация перехода от одной выборки к набору контрольных не требует реорганизации исходных данных. Достаточно встроить в программу случайное определение номера выборки, к которой следует отнести очередной объект. В рассмотренном случае анализа многомерных таблиц сопряженности расчеты для всех А выборок ведутся параллельно, в один просмотр матрицы наблюдений (т.е. массива исходных данных вида «объект X признак»). Число А определяется программой перед началом просмотра массива. Рассмотренная в статье ситуация проверки большого числа гипотез с целью выбора и интерпретаций тех из них, которые подтверждены статистическим критерием, нередко встречается при анализе социологической информации. Такая задача возникает при отборе коррелирующих пар в множестве измеренных признаков (если количество измеренных признаков — порядка нескольких десятков или более), при поиске детерминирующих комбинаций значений признаков методом дотерминационного анализа, при выборе вида уравнения регрессии. Как следует из табл. 3, при числе гипотез, больше 50, вероятность хотя бы одной ошибки первого рода близка к 1. В таких случаях полезно повторить анализ на нескольких выборках или разделить исходную выборку на несколько частей. В качестве подтвердившихся предлагается оставить только те гипотезы, которые подтвердились на каждой из независимых выборок. Рекомендуемое количество выборок при желаемой величине надежности 0,05 приведено в табл. 3 и зависит от количества проверяемых гипотез. Если число проверяемых гипотез (пар признаков, уравнений связи, комбинаций детерминирующих признаков и т.п-) меньше 100 или больше 600000, для определения достаточного количества независимых выборок рекомендуется пользоваться формулой (I).

Похожие материалы

Информация о работе