Справочный материал Примеры Обратите внимание! Видео Модели Пройти тесты
Рассмотрим взаимосвязь двух переменных LaTeX formula: X и LaTeX formula: Y, в которой выделим одну из переменных как независимую (объясняющую), а другую как зависимую (объясняемую). В этом случае изменение первой переменной может служить причиной изменения второй. Однако каждому конкретному значению объясняющей переменной LaTeX formula: X может соответствовать не одно, а множество значений объясняемых переменных LaTeX formula: Y. Поэтому анализируют, как объясняющая переменная влияет на зависимую переменную в среднем. Зависимость такого вида выражается соотношением LaTeX formula: \bar{Y} x= f(x) и называется функцией регрессии LaTeX formula: Y на LaTeX formula: X.
Пусть имеем следующие результаты измерений: 
Вид зависимости между переменными величинами можно установить различными способами, например, графически, построив корреляционное поле, которое представляет собою множество построенных на координатной плоскости точек вида LaTeX formula: M(x_{i}; y_{i}) , где  LaTeX formula: i=\overline{1,n}.
Если все построенные точки незначительно уклоняются от некоторой прямой, то полагают, что между величинами LaTeX formula: x и LaTeX formula: y существует линейная зависимость (рис. 11.4).
Эмпирическое уравнение линейной регрессии LaTeX formula: Y на LaTeX formula: X имеет вид:
LaTeX formula: \bar{Y} x= kx+b. LaTeX formula: (11.28)
Эмпирические коэффициенты LaTeX formula: k и LaTeX formula: b находят, решая систему уравнений: 
LaTeX formula: \left\{\begin{array}{lcl} \overline{X^2}k+\overline{X}b=\overline{XY},& \\ \overline{X}k+b=\overline{Y} .& \end{array} \right. LaTeX formula: (11.29)

Параметры эмпирических формул определяются по методу наименьших квадратов (МНК), т. е. минимизируется функция (рис. 11.5):
LaTeX formula: f(k;b)=\sum_{i=1}^{n}e_{i}^{2}=\sum_{i=1}^{n}(y_{i}-\overline{y_{i}})^{2}=\sum_{i=1}^{n}(y_{i}-kx_{i}-b)^{2}.
Если все построенные точки незначительно уклоняются от дуги некоторой параболы, то полагают, что между величинами LaTeX formula: x и LaTeX formula: y существует квадратичная зависимость (рис. 11.6).
Эмпирическое уравнение квадратичной регрессии LaTeX formula: Y на LaTeX formula: X имеет вид:
LaTeX formula: \overline{Y}x=ax^2+bx+c. LaTeX formula: (11.30)
Эмпирические коэффициенты LaTeX formula: a,b и LaTeX formula: c находят, решая систему уравнений: 
LaTeX formula: \left\{ \begin{array}{lcl} \overline{X^4}a+ \overline{X^3}b+\overline{X^2}c=\overline{X^2 Y},& \\ \overline{X^3}a+\overline{X^2}b+\overline{X}c=\overline{XY}, & \\ \overline{X^2}a+\overline{X}b+c=\overline{Y}.& \end{array} \right. LaTeX formula: (11.31)

Пример. Проанализировано LaTeX formula: 32 слова из фрагмента произведения С. Есенина: LaTeX formula: CBX – количество бука в слове; LaTeX formula: CBY – количество согласных в слове. Получены следующие значения двумерной случайной величины LaTeX formula: (X; Y): (1; 0), (7; 3), (7; 3), (3; 2), (8; 3), (7; 3), (4; 2), (1; 1),LaTeX formula: (3; 2), (7; 4), (2; 1), (3; 2), (5; 4), (6; 3), (4; 2), (5; 3),LaTeX formula: (6; 4), (7; 5), (8; 4), (5; 3), (9; 6), (5; 3), (4; 2), (6; 4),LaTeX formula: (8; 5), (4; 2), (6; 4), (1; 0), (4; 2), (5; 3), (1; 1), (6; 5). 
Необходимо: 1) построить корреляционное поле; 2) найти и  построить уравнение регрессии.
Решение. 1. Построим корреляционное поле (рис. 11. 7).
2. Построим уравнение линейной регрессии 11.28, зная, что LaTeX formula: \overline{X}=5, \overline{X^2}=29,07 LaTeX formula: , \overline{Y}=2,85 LaTeX formula: ,\overline{Y^2}=10,35  LaTeX formula: \overline{XY}=17,01  (см. Примеры / Корреляционный анализ).
Коэффициенты LaTeX formula: k и LaTeX formula: b найдем, решая систему уравнений 11.29:
LaTeX formula: \left\{ \begin{array}{lcl} 29,07k+5b=17,01 , & \\ 5k+b=2,85 ; & \end{array} \right. \left\{ \begin{array}{lcl} 29,07k+5b=17,01 , & \\ 25k+5b=14,25 . & \end{array} \right.
Вычитая из первого уравнения второе, получим: LaTeX formula: 4,07k=2,83 , k=0,69. Подставляя это значение в уравнение LaTeX formula: 5k+b=2,85, получим: LaTeX formula: b=2,85-5\cdot 0,69=-0,6.
Запишем уравнение линейной регрессии 11.28LaTeX formula: \overline{Y}x=0,69x-0,6.
3. Построим прямую регрессии (рис. 11.8).
Если имеем две объясняющие переменные, то, используя МНК, коэффициенты эмпирического уравнения регрессии 
LaTeX formula: \overline{Y}x=b_{0}+b_{1}x_{1}+b_{2}x_{2}
рассчитывают по формулам:
LaTeX formula: b_{0}=\overline{y}-b_{1}\overline{x}_{1}-b_{2}\overline{x}_{2};

LaTeX formula: $b_{1}=\frac{\sum (x_{i1}-\overline{x_{1}})(y_{i}-\overline{y})\sum (x_{i2}-\overline{x_{2}})^2-\sum (x_{i2}-\overline{x_{2}})(y_{i}-\overline{y})\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) } {\sum (x_{i1}-\overline{x_{1}})^2 (x_{i2}-\overline{x_{2}})^2-\left (\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) \right )^2} ;$

LaTeX formula: $b_{2}=\frac{\sum (x_{i2}-\overline{x_{2}})(y_{i}-\overline{y})\sum (x_{i1}-\overline{x_{1}})^2-\sum (x_{i1}-\overline{x_{1}})(y_{i}-\overline{y})\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) } {\sum (x_{i1}-\overline{x_{1}})^2 (x_{i2}-\overline{x_{2}})^2-\left (\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) \right )^2} .$
Дисперсии и стандартные ошибки коэффициентов рассчитывают по формулам (LaTeX formula: n – объем выборки): 
LaTeX formula: S^2=\frac{\sum e^2_{i}}{ n-3} ;
LaTeX formula: \[S^2_{b_{o}}=LaTeX formula: \frac{\frac{1}{n}+\overline{x^2_{1}}\sum (x_{i2}-\overline{x}_{2})^2+\overline{x}_{2}^2\sum (x_{i1}-\overline{x}_{1})^2-2\overline{x}_{1}\overline{x}_{2}\sum (x_{i1}-\overline{x}_{1})(x_{i2}-\overline{x}_{2})}{\sum (x_{i1}-\overline{x}_{1})^2\sum (x_{i2}-\overline{x}_{2})^2-\left (\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) \right )^2}S^2LaTeX formula: S^2;
LaTeX formula: S^2_{b_{1}}=\frac{\sum (x_{i2}-\overline{x}_{2})^2}{\sum (x_{i1}-\overline{x}_{1})^2\sum (x_{i2}-\overline{x}_{2})^2- \left (\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) \right )^2} S^2;
LaTeX formula: S^2_{b_{2}}=\frac{\sum (x_{i1}-\overline{x}_{1})^2}{\sum (x_{i1}-\overline{x}_{1})^2\sum (x_{i2}-\overline{x}_{2})^2- \left (\sum (x_{i1}-\overline{x_{1}})(x_{i2}-\overline{x_{2}}) \right )^2} S^2
Статистическую значимость коэффициентов регрессии  LaTeX formula: b_{1} и LaTeX formula: b_{2}  устанавливают на основе LaTeX formula: t-статистики: LaTeX formula: t_{1}=\frac{b_{1}}{S_{b_{1}}}  и LaTeX formula: t_{2}=\frac{b_{2}}{S_{b_{2}}}.
Проверяются гипотезы: 1) LaTeX formula: H_{0}: \beta _{1}=0, H_{1}: \beta _{1}\neq 0;   2) LaTeX formula: H_{0}: \beta _{2}=0, H_{1}: \beta _{2}\neq 0.
Если LaTeX formula: \left | t_{1} \right |>t_{\frac{\alpha }{2};n-3} и LaTeX formula: \left | t_{2} \right |>t_{\frac{\alpha }{2};n-3}  ( LaTeX formula: \alpha– уровень значимости, LaTeX formula: n – объем выборки), то данные коэффициенты статистически значимы. 
Доверительные интервалы коэффициентов регрессии рассчитывают по формуле:
LaTeX formula: b_{i} - t_{\frac{\alpha }{2},n-3} S_{b_{i}}<\beta_{i}<b_{i}+ t_{\frac{\alpha }{2},n-3}S_{b_{i}}.
Коэффициент детерминации рассчитывают по формуле  LaTeX formula: R^2=1-\frac{\sum e_{i}^2}{\sum (y_{i}-\overline{y})^2}.
Статистическая значимость коэффициента детерминации проверяется с помощью гипотезы: LaTeX formula: H_{0}:R^2=0, H_{1}:R^2>0.
С помощью статистики Фишера находят LaTeX formula: F=\frac{R^2}{1-R^2}\cdot \frac{n-3}{2}.
При уровне значимости LaTeX formula: \alpha  находят критическое значение распределения Фишера:  LaTeX formula: F_{\frac{\alpha }{2},n-3}
Если LaTeX formula: F LaTeX formula: > LaTeX formula: F_{kp}, то нулевая гипотеза отклоняется, следовательно, коэффициент детерминации статистически значим.
Гипотеза об отсутствии автокорреляции проверяется на основе статистики Дарбина – Уотсона LaTeX formula: DW, которая определяется по формуле: LaTeX formula: DW=\frac{\sum (e_{i}-e_{i-1})^2}{\sum e^2_{i}}.
Если выполняется условиеLaTeX formula: d_{u}<DW<4-d_{u} , то автокорреляция остатков отсутствует.
formula