Пакет STATISTICA 6. Общее знакомство с интерфейсом пакета. Модуль линейная множественная регрессия и нелинейное оценивание, страница 2

Математический анонс.

Одна из наиболее распространённых задач статистического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Переменные, значения которых в эксперименте варьируются, называются факторами, а переменная, значения которой измеряются – откликом. Регрессионный анализ предназначен для установления (идентификации) функциональной зависимости между откликом  Y и несколькими или одним факторами X1, X2,…Xn. В линейном регрессионном анализе эта зависимость предполагается линейной. В самом простом случае имеются две переменные YиXТребуется по m  парам наблюдений (X1, Y1), (X2, Y2),,,,, (Xm, Ym) подобрать прямую линию, которая наилучшим образом приближает наблюдаемые значения. Понятие «наилучшим образом» может быть определено по-разному. Как правило, линия подбирается из условия минимума суммы квадратов отклонений расчетных значений отклика от экспериментальных значений по всем опытам, т.е. методом наименьших квадратов (МНК). Математически задача регрессионного анализа может быть сформулирована следующим образом. Значениям независимой переменной X отвечают значения зависимой переменной Y:

                                        Yi   =   β0   +   β1 * Xi    +  ε,        i = 1,…m,               (2.1)

где  εi  есть независимые случайные ошибки со средним 0, которые интерпретируются как ошибки наблюдений;    β0β1   неизвестные параметры, описывающие прямую линию, которые следует оценить по наблюдениям (Xi, Yi),    i  =  1, … m.  Уравнение (2.1) называется уравнением регрессии.  По результатам наблюдений можно получить лишь приближенные значения  (оценки) параметров β0β1которые обозначим b0, b1.   Уравнение связи, в которое входят оценки параметров, называется   приближенной или выборочной регрессией и записывается в виде:

                                     Ŷ   =   b0    +   bX                                                 (2.2)

Коэффициенты b0 и b1 определяются из условия минимума Ф:

                                Ф =   Ŷi  - Yi )2.

Разность Ŷi  - Yi называется остатком в i-ом опыте. По величине остатков можно судить о качестве подгонки линейной зависимости.

 Выборочная регрессия (2.2) позволяет найти значение отклика при любом значении фактора не выполняя эксперимента.

Поиск приближенной однофакторной регрессии в модуле.

Осваивать модуль будем на примере решения конкретной задачи. Сознательно предлагается довольно простая задача однофакторной регрессии, чтобы сосредоточить внимание на инструментарии модуля. Освоив этот инструментарий, можно перейти к  более сложным задачам, что и будет сделано в следующей лабораторной работе.

Задача. По экспериментальным значениям константы скорости реакции, полученным при различной температуре, определить параметры уравнения Аррениуса K0и E.  Уравнение Аррениуса представляет зависимость константы от температуры в виде:

                              K = K0 * e-                                                                          (2.3)

                         

Эту зависимость путем логарифмирования можно привести к линейному виду

                                Ŷ  = b0 + b1 * X,                                               (2.4)

где   Y= ln(K),    b0 = ln(K0),     b1 = -   ,     X = ,  размерностьT-  кельвины.

В таком случае для решения задачи необходимо найти значения коэффициентов линейной регрессии b0 и b1 и от них перейти к искомым параметрам:

                                К0  =  e b0                                                          (2.5)

E  =  b1 * R  =  b1 *   8,31                                  (2.6)

Обработка данных в модуле Линейная множественная регрессия выполняетсяв строго определенной последовательности, которая не зависит от характера анализируемых данных и включает четыре основных этапа:

1. Ввод исходных данных. В качестве экспериментальных данных в нашей задаче используем данные из файла, подготовленного в разделе 2.  Пусть  переменная K содержит значения константы, переменная t–значения температуры в 0С,  X-фактор,Y–отклик в линейной регрессии (2.4).  В качестве примера используем следующую таблицу, полученную в практическом задании.