Проверка гипотез. Представление результатов проверки статистических гипотез в публикациях, страница 7

Неправда, что группа радикальных активистов захватила в заложники десять статистиков и шесть редакторов на ежегодном съезде Американской психологической ассоциации (1996) и скандировала: «Полностью запретите проверку гипотез!», «Долой нуль-гипотезу!» (Abelson, 1997, цит. по Aron A. & Aron E. Statistics in Psychology, 1998, p. 178).

В чем суть недовольства классической процедурой проверки статистических гипотез? Одна причина теоретического свойства, она связана с логической неопределенностью ситуации, когда исследовать не смог отвергнуть нуль-гипотезу. (Как вы помните, эта неопределенность была заложена в теорию статистического вывода Р.Фишером). Другая – практического свойства. Проверка гипотез сводит ситуацию к бинарному решению. При этом теряется много информации и полностью игнорируются слабые различия между средними. Процедура очень похожа на «метод» Прокруста, который отрезал лишнее людям, не умещавшимся на его ложе. Может быть, следовало отрезать не всем или не все... Особая методологическая проблема связана с предположениями, лежащими в основе проверки гипотез. В частности, большинство исследований в социальных науках выполнено не на случайных выборках, что требует разработки совершенно иных методов.

Пожалуй, основной причиной недовольства проверкой гипотез явилось растущее понимание неправильного использования процедуры. Исследователи часто выбирают неверный критерий, делают неверные выводы из анализа, используют неверные обороты излишне детерминистский язык, приводят неполную информацию о характеристиках распределения и статистической значимости, не учитывают объема выборки, не оценивают мощность процедуры и т.д.

Что можно сделать, чтобы усовершенствовать теорию и снять негативные последствия практики проверки гипотез? Эта тема слишком сложна для короткого обсуждения, и некоторые решения будут рассматриваться в других учебных текстах этого курса. Среди альтернатив – расчет «величины статистического эффекта» (см. следующий текст), оценка доверительных интервалов параметров (см. соответствующий текст), использование байесовых методов, основанных на апостериорных вероятностях и т.д. Чтобы избежать потерь информации, рекомендуется указывать точное значение ошибки первого рода вместо неинформативных оборотов «статистически значимо» или «статистически незначимо». Один из способов коррекции ошибок, обусловленных неслучайными и малыми выборками, видят в неоднократном воспроизведении результатов – другими исследователями, в других обстоятельствах. Устойчивость результатов к изменяющимся условиям исследования действительно является мощным средством подтверждения.

Некоторые другие советы описаны в тексте «Статистические методы в психологических журналах», сокращенно переведенном из журнала American Psychologist, 1999, Vol.54 (8).



[1] Zajonc R.B. Family configuration and intelligence. Science, 1976, No. 192, pp. 227-236. См. также: Taubman P. & Behrman J.R Effects of number and position of siblings on child and adult outcomes. Social Biology, 1986, Vol. 33, pp. 22-34.  Zajonc R.B. & Mullally P. Birth order: Reconciling conflicting effects. American Psychologist, 1997, Vol. 52, pp, 685-699.

[2] Чаще говорят «уровень значимости» (significance level)

[3] Для альтернативной гипотезы H1: μ0 < μ критическое значение равно –1,64 в силу симметричности нормального распределения.

[4] Какую именно информацию, станет ясно из описания статистических методов в учебниках. Обычно это степени свободы. Для справки полезно посмотреть опубликованные статьи, авторы которых использовали тот же статистический метод.