Методы математической статистики и теории вероятностей в выборе фильма, страница 3

Группа

Отечественные

Зарубежные

Итого

Количество

15

35

50

Можно ли на основании полученных данных сказать, что все фильмы  пользуются одинаковой популярностью?

В данном случае имеется одна выборка и необходимость проверить, соответствует ли распределение результатов в выборке предполагаемому распределению.

Так как в данном случае у нас имеется небольшая выборка, используется непараметрический тест. Для решения подобных задач применяется один из наиболее популярных непараметрических тестов — тест .

В качестве теоретического распределения в нашем случае используется равномерное распределение. Смысл его в том, что все результаты считаются равновероятными. При наличии двух групп фильмов вероятность встретить фильм, принадлежащую какой-либо из них, должна быть одна и та же и равна 1/2=0,5.

С учетом данного обстоятельства окончательный вариант  расчетной таблицы для данного примера представлен в таблице 1.2.

Таблица 1.2

Теоретическое и эмпирическое распределение фильмов

Группа

Отечественные

Зарубежные

Итого

Теоретическое количество

25

25

50

Эмпирическое количество

15

35

50

Формулируем нулевую и альтернативную гипотезы и задаем уровень значимости .

Н0: Вероятность встретить на сайте megogo.net фильм отечественного производства, равна вероятности встретить фильм, произведенный в зарубежных странах (Если  меньше ).

Н1: Вероятность встретить на сайте megogo.net фильм отечественного производства, не равна вероятности встретить фильм, произведенный в зарубежных странах (Если  больше или равно ).

Вычисляем сумму отклонений между наблюдаемыми и  теоретическими значениями по формуле:

, где — наблюдаемые, или эмпирические, значения (частоты) для каждой из категорий,  — ожидаемые, или теоретические, значения (частоты) для каждой из категорий таблицы

Подставим соответствующие значения  и  в расчетную формулу:

Таблица 1.3

Распределение теоретических и эмпирических частот

Категории

1

2

итого

Ожидаемые и эмпирические частоты

,

,

50

Полученное значениесравнивается со значением ,  которое берется из таблицы критических значений для теста (см. Приложение Таблица 1)в зависимости от выбранного уровня значимости  и числа степеней свободы . В свою очередь, число степеней свободы для теста  зависит от размера расчетной таблицы и равно. В нашем случае .

Если  больше или равно , то нулевая гипотеза отклоняется и принимается альтернативная (эмпирическое распределение значимо отличается от теоретического: фильмы одних стран-производителей встречаются на просторах сайта megogo.net чаще или реже, чем фильмы других).

Из таблицы 1 находим, что для и , .

Поскольку  гораздо больше, чем , то нулевая гипотеза отклоняется и принимается альтернативная. То есть, Вероятность встретить на сайте megogo.net фильм отечественного производства, не равна вероятности встретить фильм, произведенный в зарубежных странах.

Для определения популярности «отечественных» фильмов можно воспользоваться и параметрическими методами. Для этого необходимо собрать несколько больше статистических данных.

Для исследования были собраны данные из 100 выборок, в каждой из которых рассматривалось по 20 фильмов. Статистические данные представлены в таблице 1.4.

Таблица 1.4

Статистические данные фильмов из 100 выборок