Статистический вывод: введение
Там, где мы имеем дело не с единичными и уникальными объектами, а с множеством объектов одной природы, мы пытаемся делать обобщения. Темой вашего исследования может быть сравнение количества дорожно-транспортных происшествий на участках, оборудованных «лежащими полицейскими», и на обычных участках; проверка с помощью небольшого опроса официальных данных о политических предпочтениях населения; оценка словарного запаса у слабовидящих детей; сравнение средних оценок депрессивности людей, постоянно употребляющих сырую капусту, и тех, кто капусты не ест; количество знакомых, которых люди могут вспомнить в течение часа; затраты времени на отдых в рабочие дни и выходные и т.п.
Характеристики совокупности объектов можно описать способами, которые мы обсуждали в одной из предыдущих тем. Это моды, медианы, средние, медианы, дисперсии и стандартные отклонения, процентили, а также другие характеристики, которые вы будете изучать в следующих темах.
В некоторых случаях получение этих характеристик является конечной целью анализа. Однако они недостаточны для ответа на самые важные вопросы исследования. Предположим, вы хотите проверить идею о том, что учебники по статистике стоят дороже других книг. Вы даже придумали теорию: написание и издание статистических руководств предполагает особенно большой объем работы, связанный с созданием иллюстраций, написанием формул, подготовкой простых учебных примеров. Вы отправляетесь на книжную выставку или заходите в интернет-магазин и выписываете цены на учебники по статистике и по другим дисциплинам. Будучи искушенным исследователем, вы пытаетесь избежать неверных выводов и выбираете книги приблизительно одинакового объема. Предположим, средняя цена книг по статистике действительно превышает среднюю цену учебников по психологии или истории приблизительно на два доллара. Можно ли сделать вывод о том, что статистические руководства стоят дороже другой учебной литературы? Или полученные вами различия объясняются другими обстоятельствами – случайными различиями, такими как особенности данной книжной выставки или интернет-магазина, текущими особенностями рынка, политикой издательств, качеством печати и т.п.? Понятно, что если вы повторите свое исследование в другом книжном магазине, вы получите другие значения средних.
В большинстве случаев численность объектов такова, что мы не можем изучить их исчерпывающим образом. Все возможные объекты, которые могут быть изучены, называют генеральной совокупностью. Во многих случаях генеральная совокупность недостижима по финансовым или иным причинам. Невозможно провести опрос всего населения страны или изучить фотографии во всех женских и мужских журналах. Часто границы генеральной совокупности являются гипотетическими: мы можем не знать о существовании определенных групп населения, журналов, дорожно-транспортных происшествий, В таких случаях исследователи извлекают часть генеральной совокупности. Она называется выборкой. Цель исследования – сделать вывод о генеральной совокупности на основании изучения выборки. Точность этого вывода зависит от того, насколько характеристики выборки отражают (репрезентируют) характеристики генеральной совокупности. Доказано, что наилучшей в смысле репрезентативности является простая случайная выборка, когда каждый объект генеральной совокупности имеет равные шансы попасть в выборку. (На практике извлечение простой случайно выборки оказывается дорогим мероприятием, поэтому в методологии разработаны другие способы извлечения выборки, практически не уступающие по качеству простой случайной).
Если бы характеристики генеральной совокупности нам были известны, не понадобилось бы проводить эмпирическое выборочное исследование; мы могли бы все узнать из книг или справочников и применить эту информацию к нашему случаю. Однако в большинстве случаев мы ничего не знаем не только о среднем или дисперсии, но и форме распределения переменной в генеральной совокупности. Напротив, мы можем легко рассчитать характеристики конкретных выборок, но обычно они представляют для нас интерес лишь как приблизительная информация о генеральной совокупности.
Числовые значения различных описательных характеристик генеральных совокупностей называются параметрами. Те же описательные меры, вычисленные для выборок, называются статистиками. Статистический вывод – это рассуждение от частного к общему, от выборки к генеральной совокупности, от статистик к параметрам, от известного к неизвестному, от явного к неявному. Статистику, вычисленную по выборке, можно рассматривать как оценку параметра генеральной совокупности.
Статистики принято обозначать латинскими буквами, а параметры – греческими. Для тех, кто стоял у истоков математической статистики, латинские буквы были привычными и известными, греческие – необычными и менее понятными. Для выборочного среднего используется обозначение , для соответствующего параметра («математического ожидания») генеральной совокупности – греческая буква μ. Выборочная дисперсия обозначается s2, дисперсия генеральной совокупности – σ2. Обозначения для других часто используемых статистик и параметров будут вводится по мере надобности.
Уважаемый посетитель!
Чтобы распечатать файл, скачайте его (в формате Word).
Ссылка на скачивание - внизу страницы.