Обработка данных в рамках линейной регрессионной модели

Страницы работы

Фрагмент текста работы

Обработка данных в рамках линейной регрессионной модели

1. Линейная регрессия. Подбор прямой

Формулировка задачи

В качестве примера рассмотрим данные, опубликованные в газете TheChicagoMaroonза пятницу 10 ноября 1972 г. (этот пример взят из книги [8] , стр. 88). В ней сообщались оптовые цены на марочные вина в зависимости от года закладки вина. Цены указаны в долларах за одну бутылку. Приводились следующие данные:

ГОД

ЦЕНА

1890

50.00

1900

35.00

1920

25.00

1931

11.98

1934

15.00

1935

13.00

1940

6.98

1941

10.00

1944

5.99

1948

8.98

1950

6.98

1952

4.99

1955

5.98

1960

4.98

Таблица 1. Исходные данные для анализа

Естественно предположить, что между возрастом вина и его стоимостью имеется некоторая зависимость. Интуитивно понятно, что чем больше выдержка, тем вино должно быть дороже. Данные показывают, что в общем эта тенденция выполняется, однако имеются и исключения. Итак, мы хотим приближенно выразить зависимость между этими двумя переменными. Зачем это нужно? Например, имея такую формулу, можно прогнозировать стоимость вин на следующем аукционе (в 1973 году) или, если вы планируете продавать вино, года закладки которого нет в таблице (например 1945), вы можете грамотно назначить на него цену.

Математическая постановка задачи

Студентам прикладной математики, успешно сдавшим экзамен по предмету «Статистические методы анализа данных» должны быть понятны цель и место регрессионных моделей. Введем используемые далее обозначения: уравнение регрессии имеет вид

, где  есть независимые случайные ошибки со средним 0, которые интерпретируются как ошибки наблюдений,  — неизвестные параметры, описывающие прямую линию и которые следует оценить по наблюдениям .

В нашем примере независимая переменная — год закладки (или выдержка, которая равна возрасту вина), а зависимая переменная — его цена на аукционе.

Оценки параметров  обозначаются как .

Выбор статистического модуля

После запуска программы на экране откроется основное окно системы STATISTICA. При запуске системы в нее автоматически загружается последний файл, с которым вы работали в ней.

Используйте Переключатель Модулей (Основное меню, Statistics), чтобы загрузить нужный для работы модуль. Для выполнения первой лабораторной работы вам потребуется модуль Multiple Regression

Вообще, в STATISTICA реализован принцип логической подсказки. Если вы не знаете, что нужно делать на следующем шаге обработки, нажмите на клавишу ENTER. STATISTICA сама отправит вас к нужному диалоговому окну. Например, если вы не выбрали переменные для анализа, то откроется диалоговое окно выбора переменных, в котором вам будет предложено эти переменные выбрать, если вы не задали значения каких-либо параметров, то они будут заданы по умолчанию и т.д.

Рис.1. Основное окно модуля Множественной регрессии.

Создание электронной таблицы с исходными данными

Исходные данные в системе STATISTICA организованы в виде таблицы, которые во многом напоминают таблицы Excel. Столбцы электронной таблицы в STATISTICA называются Variable — Переменные, строки Cases — Случаи. В качестве переменных выступают исследуемые величины, случаи — это значения, которые принимают переменные и которые измеряются в процессе наблюдения. В нашем примере в качестве переменных могут естественно выступать Год закладки вина и его Цена на аукционе.

Ввод исходных данных и дополнительной информации

Переменные в электронной таблице могут принимать как текстовые, так и численные значения. В электронной таблице с данными из нашего примера в первом столбце содержится переменная Год (год закладки), во втором — переменная Цена — цена

Информация о работе