Привет, дорогой студент!

Я буду помогать себе тебе быть в курсе всех новостей с семинаров Б. Б. Демешева по эконометрике в 2017 году.

Давай же начнем наше увлекательное приключение в мир регрессий, тестов и красивых графиков! :)

Так как записи семинаров ведутся не с первого сентября, а с 27 ноября 2017 года, то переписывать сюда всё с самого начала трудно, поэтому я прикладываю краткий summary всего самого важного, что было пройдено на лекциях и семинарах за пропущенный период. Если ты нашел неточность или ошибку, то скорее пиши Борису Борисовичу или мне.


Конвенция об обозначениях

Во всех последующих записях мы используем следующие обозначения.

  1. \(a , b\) - это векторы \((n \times 1)\) из констант,

  2. \(A, B\) - это матрицы \((n \times k)\) из констант,

  3. \(\alpha, \gamma\) - это скаляры,в виды констант,

  4. \(r, s\) - это тоже векторы \((n \times 1)\), но состоят они из случайных величин,

  5. \(R , S\) - это матрицы \((n \times k)\), каждый компонент которых теперь случайная величина,

  6. \(t\) - это скаляр в виде случайной величины.

Чтобы быть успешным эконометристом (эконометрессой), нужно все-таки выучить вспомнить школьную программу, линейную алгебру и курс ТВ и МС.

ТВиМС

  1. Вероятности

1.1 Безусловные вероятности

1.2 Условные вероятности

  1. Характеристики распределений и зависимостей

2.1 Математическое ожидание

2.2 Дисперсия

2.3 Ковариация

2.4 Корреляция

  1. Проверка гипотез

  2. p-value


Еще немного теории

Уже не терпится строить регрессии? Всё, всё, это последний но это неточно ликбез. Давай вспомним про нашего старого друга с первого курса, про дифференциал.

Правила дифференцирования векторов и матриц

  1. \(d(A\times R\times B)\) = \(A\times d(R) \times B\)

  2. \(d(\alpha \times a)\) = 0\((n\times 1\))

  3. \(d(\alpha \times A)\) = 0\((n\times k\))

  4. \(d(R+S)\) = \(dR +dS\)

  5. \(d(R)'\) = \((dR)'\), где ’ означает транспонирование

  6. \(d\) сам знает, как дифференцировать сложную функцию.

  7. \(d(\frac{R}{t})\) = \(\frac{d(R) \times t - R \times d(t)}{t^2}\)

  8. \(d(r' \times A \times r)\) = \(r' \times (A'+A) d(r)\) (настоятельно рекомендую проверить этот результат, а то мало ли что)

  9. \(d(R^{-1}) = -R^{-1}\times dR \times R^{-1}\), где \(R^{-1}\) это обратная матрица для R


Вот теперь мы готовы к изучению эконометрики!

Начнем с самой главной лошадки эконометриста -МНК


Что такое регрессия?

Начать нужно с того, а что такое регрессия и зачем она нужна. Много чего в жизни можно описать уравнением, но чаще это дает нам статический результат вот здесь и сейчас. Примером такого статического и 100% верного описания будет любая теорема, вот у меня любимая теорема - теорема косинусов, которая утверждает, что если ты знаешь длины двух сторон и косинус угла между ними, то ты без особого труда найдешь третью сторону в треугольнике. Такую зависимость очень просто выразить в виде уравнения, которое описывает зависимость, но является ли оно регрессией? Нет, не является. Почему? Потому что регрессия это не просто описание зависимости между объясняемой и объясняющими переменными, это ожидание значения зависимой переменной при заданных объясняющих переменных, то есть регрессия - это условное математическое ожидание от некоторого процесса, содержащего случайню величину. Заметим важную вещь, что пока мы работаем только с линейными связями. Вот мы и получили первый важный вывод:

\(E(y_i|x_i) = E((\beta_0+\sum\limits_{i=1}^n\beta_i\times x_i +\epsilon_i) | x_i)=\hat{\beta_0}+\sum\limits_{i=1}^n\hat{\beta_i}\times x_i=\hat{y}\)


OLS без матриц

В чем смысл метода МНК? Считая, что вся случайность i-го наблюдения и непредсказуемость находится в \(\epsilon_i\), то мы можем минимизировать ошибку нашего прогноза, сложив и возведя в квадрат разницу между истинным результатом модели и его оценкой. Зачем нужен квадрат? Что бы не “схлопывались” ошибки прогноза.

Формализация МНК:

\(\sum\limits_{i=1}^N (y-\hat{y})^2 \rightarrow \underset{\hat{\beta_j},\; j\in Z}{min}\)

F.O.C. дают нам оценки для всех \(\hat{\beta_j}\)

Если регрессия парная и содержит константу, тогда справедливы следующие результаты минимизации

\(\hat{\beta_0} = \overline{y}-\hat{\beta_1}\times\overline{x}\)

\(\hat{\beta_1}= \frac{\sum\limits_{i=0}^N (x_i-\overline{x})\times(y_i-\overline{y})}{\sum\limits_{i=0}^N(x_i-\overline{x})^2}= \frac{\hat{cov(x_i,y_i)}}{\hat{var(x)}}\)

У МНК есть красивая геометрическая интерпретация, которая верна как для парного, так и для многомерного случая, которую я нарисую внизу :)

#Тут будет график. Скоро.

В трехметрном пространстве есть 4 n-мерных вектора: \(y, x, z \; и \; 1\), где \(y \notin Lin(x,z,1)\)

Если спроектировать \(y \; на\; Lin(x,z,1)\), то полyчим \(\hat{y}, \;а \;вектор, \; который \; соединяет \;y \; и\; \hat{y} \; является \; вектором \; ошибок\; прогноза\; -\; RSS\). Теперь спроектируем \(\hat{y}\) на единичный вектор, тем самым мы получим вектор средних значений - \(\overline{y}\) - через вычитание из вектора \(\hat{y}\) объясняемых квадратов отклонений - \(ESS\). Получается, что, так как \(RSS \perp \hat{y}, \; а \; ESS \perp \overline{y}\), тогда проекция \(y \;на\; 1\) дает в рузультате вектор средних значений \(y\) и равен \(ESS+RSS\)

Вот так мы получили еще три столба для эконометрики

\(RSS=\sum\limits_{i=1}^N (y-\hat{y})^2\) -это необъясненная сумма квадратов остатков регрессии, мы ее минимизируем

\(ESS = \sum\limits_{i=1}^N (\hat{y}- \overline{y})^2\) - это объясненная сумма квадратов отклонений

\(TSS = \sum\limits_{i=1}^N (y-\overline{y})^2\) - это общая сумма квадратов отклонений

И соотношения между ними:

\(TSS= RSS+ESS\)

\(R^2 = \frac{ESS}{TSS}= 1- \frac{RSS}{TSS}\), \(R^2 \in [0;1]\) - это коэффициент детерминации, то есть показатель качества подгонки или ( культурным языком ) соответствия нашей модели к реальности. При добавлении в уравнение регрессии любого фактора, \(R^2\) не уменьшится.

Интересно заметить, что \(R^2= \frac{\sum\limits_{i=1}^N (\hat{y}- \overline{y})^2}{\sum\limits_{i=1}^N (y-\overline{y})^2} = \hat{\rho_{y_i, x_i}^2}\). Это также имеет красивую геометрическую интерпретацию, которую я привожу ниже.

#тут будет график. Скоро

То же самое пространство, но только оно перевернуто с ног на голову. Заметим, что если \(R^2 = \frac{ESS}{TSS}\), то \(R^2= cos^2(\phi)\), то косинус можно расписать немного иначе, а именно \(cos(\phi) =\frac{(\sum\limits_{i=0}^n (y-\overline{y})\times(\hat{y}-\overline{y}))^2}{\sum\limits_{i=0}^n (y-\overline{y})^2\times\sum\limits_{i=0}^n(\hat{y}-\overline{y})^2}= \frac{\hat{cov(y, \hat{y})}}{\hat{\sigma^2_y}\times\hat{\sigma^2_{\hat{y}}}} = \hat{\rho_{y, \hat{y}}}\)

Заметим еще, что задачи \(RSS \rightarrow min\; и\; R^2\rightarrow max\) эквивалентны.

Еще раз повторяю. Это справедливо только в том случае, если есть константа в построенном прогнозе!

Почему пропал \(\epsilon\) ?

Действительно, а почему я так смело убрала случайную величину? Магия, жульничество, тайна за семью печатями? Нет, все проще. Пришло время знакомиться с OLS и теоремой Гаусса-Маркова, в рамках которой мы будем работать довольно долго.


Теорема Гаусса-Маркова (ТГМ)

Работает для регрессионной модели, если выполняются следующие предпосылки

  • Модель правильно специфицирована, то есть в нее включен только необходимый \(x\), объясняющий \(y\)

  • \(\exists x_i, что\; x_i\neq x_j, i,j \in Z\)

  • \(\forall \epsilon_i, E(\epsilon_i)=0\)

  • \(\forall \epsilon_i \: Var(\epsilon_i)=\sigma_{\epsilon_i}^2\)

  • \(\forall \epsilon_i \:\epsilon_i \sim N(0, \sigma^2_{\epsilon_i})\) - случайный член гомоскенгомоскедастичен

  • \(cov(\epsilon_i, \epsilon_j) = 0\) - отсутствие автокорреляции

  • Объясняющая переменная содержит некоторую вариацию. Это значит, что \(x\) не является константой, иначе мы бы не смогли рассчитать коэффициенты регрессии, так как напомню, что

\(\hat{\beta_0} = \overline{y}-\hat{\beta_1}\times\overline{x}\)

\(\hat{\beta_1}= \frac{\sum\limits_{i=0}^N (x_i-\overline{x})\times(y_i-\overline{y})}{\sum\limits_{i=0}^N(x_i-\overline{x})^2}= \frac{\hat{cov}(x_i,y_i)}{\hat{var(x)}}\)

А это значит, что \(\overline{x}=x\), а следовательно \(\hat{\beta_1}\) была бы неопределена, так как числитель и знамеатель дроби были бы равны 0

Это гарантирует, что стахостический компонент содержится только в \(\epsilon\).

Для такой модели оценки МНК:

  • Best

\(\forall \hat{\beta_i}, MSE(\hat{\beta_i})\le MSE(\tilde{\beta_i}))\)

  • Linear

Модель линейна по \(y\)

  • Unbiased

\(E(\hat{\beta_i})=\beta_i\)

  • Estimator

С английского - оценка параметра


На веру ничего и никогда принимать нельзя, поэтому докажем каждый из пунтов последовательно, но перед этим сделаем подготовительные упрощения:


\(var(\hat{\beta_0}) = var(\overline{y}-\hat{\beta_1}\times \overline{x})=var(\hat{\beta_1}\times \overline{x})=\)

\(\overline{x}^2\times var(\frac{\sum\limits_{i=0}^N (x_i-\overline{x})\times (y_i-\overline{y})}{\sum\limits_{i=0}^N(x_i-\overline{x})^2})=\) \(\sigma^2_{\epsilon}(\frac{\sum\limits_{i=1}^n x_i^2 +n\times \overline{x}^2}{n\times \sum\limits_{i=1}^n (x_i- \overline{x})^2})=\) \(\sigma^2_{\epsilon}(\frac{1}{n}+\frac{\overline{x}^2}{\sum\limits_{i=1}^n (x_i- \overline{x})^2})\)


Тут надо, кое что вспомнить: \(\hat{\beta_1}= \beta_1+\frac{\epsilon_i\times (x_i-\overline{x})}{\sum\limits_{j=1}^n(x_j-\overline{x})^2}\)

\(var(\beta_1)=E([\hat{\beta_1}-E(\hat{\beta_1})^2]^2)=E(\hat{\beta_1}-\beta_1)^2=\)

\(E([\sum\limits_{i=1}^n\frac{\epsilon_i\times (x_i-\overline{x})}{\sum\limits_{j=1}^n(x_j-\overline{x})^2}]\;^2)=E(\sum\limits_{i=1}^n\frac{\epsilon_i^2\times (x_i-\overline{x})^2}{\sum\limits_{j=1}^n(x_j-\overline{x})^4})+\sum\limits_{j=1}^n\sum\limits_{i=1}^n\frac{\epsilon_i\times (x_i-\overline{x})}{\sum\limits_{j=1}^n(x_j-\overline{x})^2}\times \frac{\epsilon_j\times (x_j-\overline{x})}{\sum\limits_{j=1}^n(x_j-\overline{x})^2})=\)

\((\sum\limits_{i=1}^n\frac{E(\epsilon_i^2)\times (x_i-\overline{x})^2}{\sum\limits_{j=1}^n(x_j-\overline{x})^4})+\sum\limits_{j=1}^n\sum\limits_{i=1}^n\frac{E(\epsilon_i)\times (x_i-\overline{x})}{\sum\limits_{j=1}^n(x_j-\overline{x})^2}\times \frac{E(\epsilon_j)\times (x_j-\overline{x})}{\sum\limits_{j=1}^n(x_j-\overline{x})^2})\)

С учетом, что \(E(\epsilon_i)^2=\sigma^2_{\epsilon_i},\:\; E(\epsilon_i\times \epsilon_j)=0\) получаем, что

\(var(\beta_1)=\frac{\sigma^2_{\epsilon}}{\sum\limits_{i=1}^n (x_i- \overline{x})^2}\)

Ты герой, если дочитал до этого места, а не пропустил доказательство.


Давайте буде считать, что \(w_i=\frac{x_i - \overline{x}}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}\), тогда будет справедливы следующие свойства:

1.\(\sum\limits_{i=0}^n w_i = \frac{\sum\limits_{i=0}^n (x_i-\overline{x})}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}= 0\)

2.\(\sum\limits_{i=0}^n x_i\times w_i = 1\)

3.\(\sum\limits_{i=0}^n w_i^2 = \frac{1}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}\)

Перепишем наши оценки параметров в новом виде

\(\hat{\beta_0}= \sum\limits_{i=1}^n (\frac{1}{n}-w_i\times \overline{x})\times y_i\)

\(\hat{\beta_1}= \sum\limits_{i=1}^nw_i\times y_i\)


Best

Рассмотрим \(\tilde{\beta_1}=\sum\limits_{i=1}^n \tilde{w_i}\times y_i\), которая является несмещенной оценкой лля \(\beta_1\), ф значит справедливо \(\sum\limits_{i=1}^n \tilde{w_i}=0, \; \sum\limits_{i=1}^n \tilde{w_i}\times x_i = 1\).

\(var(\tilde{\beta_1}) = var(\sum\limits_{i=1}^n\tilde{w_i}\times y_i)= \sigma_{\epsilon}^2\times \sum\limits_{i=1}^n\tilde{w_i}^2 \rightarrow min\)

Рассмотрим поближе \(\sum\limits_{i=1}^n\tilde{w_i}^2 = \sum\limits_{i=1}^n(\tilde{w_i} -w_i+w_i)^2=\)

\(\sum\limits_{i=1}^n(\tilde{w_i}-w_i)^2+ 2\sum\limits_{i=1}^n(\tilde{w_i}-w_i)w_i+ \sum\limits_{i=1}^nw_i^2=\)

\(\sum\limits_{i=1}^n(\tilde{w_i}-w_i)^2+ 2\sum\limits_{i=1}^n(\tilde{w_i}w_i-w_i^2)+ \sum\limits_{i=1}^n w_i^2=\)

\(\sum\limits_{i=1}^n(\tilde{w_i}-w_i)^2+ 2\sum\limits_{i=1}^n(\tilde{w_i}\times (\frac{(x_i-\overline{x})}{\sum\limits_{j=1}^n (x_j - \overline{x})^2})- \frac{1}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}=\)

\(\sum\limits_{i=1}^n(\tilde{w_i}-w_i)^2+ 2(\frac{\sum\limits_{i=1}^n(\tilde w_i\times x_i) - \overline{x}\times \sum\limits_{i=1}^n(\tilde w_i)}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}) - \frac{1}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}=\)

\(\sum\limits_{i=1}^n(\tilde{w_i}-w_i)^2+ \frac{1}{\sum\limits_{j=1}^n (x_j - \overline{x})^2}\)

В таком случае, только при \(\tilde w_i = w_i, var(\hat{\beta_1})= \frac{\sigma^2_{\epsilon}}{\sum\limits_{i=1}^n x_i^2}\)


Linear

Линейность оценки следует из детерминированности \(x\) и линейности \(\hat{cov}(x,\epsilon)\)


Unbiased

\(E(\hat{\beta_1})=E(\beta_1 + \frac{\hat{cov(\epsilon, x)}}{\hat{var(x)}})= \beta_1+\frac{E(\sum\limits_{i=1}^n(\epsilon- \hat{\epsilon})\times (x-\hat{x}))}{(n-1)\times \hat{var(x)}}= \beta_1\)

\(E(\hat{\beta_0})= E(\overline{y}-\hat{\beta_1}\times \overline x)=\beta_0\)


Полезные результаты МНК без матриц

В этой главе мы закинем удочку в тему проверки гипотез,так как именно это задача любого анализа модели: доказать, что построенная модель -это не просто набор из рандомно напиханных факторов, которые каким-то образом попались на глаза в процессе исследования, а обдуманные и очень тщательно выбранные факторы, адекватно отображающие интересующий процесс в жизни.


Важно помнить следующие выводы из парной регрессии в условиях ТГМ

  1. \(\overline{\hat{\epsilon}} = 0, \; \hat{\epsilon}= y-\hat{y}\)

  2. \(\overline{y}=\overline{\hat{y}}\)

  3. \(\sum\limits_{i=0}^n x_i\times \hat{\epsilon} =0\)

  4. \(\sum\limits_{i=0}^n \hat{y}\times \hat{\epsilon} =0\)

  5. Несмещенная оценка дисперсии ошибки прогноза выражается \(\hat{\sigma^2_{\epsilon}}=\frac{RSS}{n-2}\)


Давай подумаем, какая из всех возможных прямых будет ближе всего ко всем точкам - выборке наблюдений?

Конечно, регрессионная, просто по ее определени,ведь разброс остатков для нее минимальный, а значит среднее квадратичное отклонение для разброса еще меньше. Зная это, выведем еще одну несмещенную оценку для \(\sigma^2_{\epsilon_i}\).

\(E(MSD(\epsilon_i))=E(\frac{1}{n}\sum\limits_{i=1}^n(\epsilon_i-\overline{\epsilon})^2)=\frac{1}{n}E(\sum\limits_{i=1}^n(\epsilon_i)^2)=\frac{n-2}{n}\times \sigma^2_{\epsilon}\)

\(s^2_{\epsilon}=\frac{n}{n-2}\times MSD(\epsilon)= \frac{n}{(n-2)\times n} \;\times \sum\limits_{i=1}^n(\epsilon_i)^2=\frac{RSS}{n-2}=\sigma^2_{\epsilon}\)


  1. \(\frac{RSS}{\sigma^2_{\epsilon}}\sim \chi^2_{n-2}\)

Тут надо вспомнить, из чего же складывается распределение \(\chi^2_n\)

Если \(\forall z_i\sim N(0;1),\;z_j\sim N(0;1), \;i\in(1,n)\; и \;при\; условии, \; что \; cov(z_i,z_j)=0\), верно \(\sum\limits_{i=1}^nz_i^2\sim\chi^2_n\)

Используем метод пристального взгляда и… очевидно!


  1. Нормальность случайных возмущений

Последнее неочевидно, поэтому требует доказательства.


Из ТГМ нам известно, что \(\epsilon_i \sim N(0, \sigma^2_{\epsilon_i}), \; cov(\epsilon_i, \epsilon_j) = 0\), это дает нам право считать, что

\(\hat{\beta_1} =\frac{\hat{cov}(x_i,y_i)}{\hat{var}(x)} = \frac{\hat{cov}(x_i, \beta_0 +\beta_1\times x_i +\epsilon_i)}{\hat{var}(x)}= \frac{\hat{cov}(x_i, \beta_0}{\hat{var}(x)}+\beta_1 \times \frac{\hat{cov}(x_i, x_i}{\hat{var}(x)}+\frac{\hat{cov}(x_i, \epsilon_i)}{\hat{var}(x)}=\)

\(\beta_1 + \frac{\hat{cov(x_i,\epsilon_i)}}{\hat{var(x)}}\),

поэтому \(\hat{\beta_1} \sim N(\beta_1, \sigma^2_{\beta_1})\). Аналогичный анализ справедлив и для \(\hat{\beta_0}\)


  1. \(\forall i \in [1,2] \: оценки \:\hat{\beta_i} \; и\; \hat{\sigma^2_{\epsilon}}\) являются независимыми

Это доказывается через ковариацию


Тестирование гипотез в парной регрессии

Ну вот наконец-то я добралась до второго модуля.

Гипотезы!

Для начала обозначим план работ :)

Всего нам нужно знать 2 гипотезы для случая парной регресии.


  1. Гипотеза о конкретном значении коэффициентов

Рассмотрим только случай двусторонней гипотезы:

\(H_0: \beta_1=\beta_1^0\)

\(H_a: \beta_1 \neq \beta_1^0\)

Как мы уже знаем \(\beta_1 \sim N(\beta_1, \sigma^2_{\hat{\beta_1}})\), тогда наша тестовая статистика принимает вид

\(\frac{\hat{\beta_1}-\beta_1^0}{\sigma_{\hat{\beta_1}}}\sim N(0, 1)\), но вот же грусть-печаль, нам никак не узнать \(\sigma^2_{\hat{\beta_1}}\), так как в нее входит неизвестный никому параметр \(\sigma^2_{\epsilon_i}\). Тогда поступим классическим образом и используем оценку неизвестного параметра: \(\hat{\sigma^2_{\hat{\beta_1}}}\)

В таком случае \(\frac{\hat{\beta_1}-\beta_1^0}{\hat{\sigma_{\hat{\beta_1}}}}\sim t_{n-2}\), тогда доверительный интервал для проверки будет иметь вид:

\(\hat{\beta_1}-t_{n-2, 1-\frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_1}}} \le \beta_1^0 \le \hat{\beta_1}+t_{n-2,\frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_1}}}\)

Если заданное в нулевой гипотезе значение беты попадает в доверительный интервал, тогда гипотеза не отвергается.


  1. Гипотеза о значимости коэффициента

Рассмотрим только случай двусторонней гипотезы:

\(H_0: \beta_1=0\)

\(H_a: \beta_1 \neq 0\)

В таком случае \(\frac{\hat{\beta_1}}{\hat{\sigma_{\hat{\beta_1}}}}\sim t_{n-2}\), тогда доверительный интервал для проверки будет иметь вид:

\(\hat{\beta_1}-t_{n-2, 1-\frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_1}}} \le \beta_1^0 \le \hat{\beta_1}+t_{n-2,\frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_1}}}\)

Если 0 попадает в доверительный интервал, тогда гипотеза не отвергается или иными словами, коэффициент НЕ значим.


МНК в матрицах.

Тут будет линал, поэтому слабонервным не смотреть нужно кое-что дополнительно ввести.

Да, если бы все в мире описывалось простыми парными регрессиями, то жизнь была бы сказкой, но к сожалению реальность многогранная и парные регрессии используются редко, так как плохо отображают действительность, вместо них используют многофакторные модели или множественные регрессии, поэтому визуализация становится сложной, а взаимосвязи между факторами и регрессантом - не очевидными. Что же нам делать? Вспоминать линейную алгебру конечно!

Не пугайся, мой друг, больно не будет. :)

Для начала определимся с обозначениями, следуя Конвенции:

  1. \(y_{n\times1}\) - это вектор регрессант

  2. \(X_{n\times(k+1)}\) - это матрица констант

  3. \(\beta_{(k+1)\times1}\) -это вектор из \(k+1\) коэффициентов

  4. \(u_{n\times1}\) -это вектор случайных величин

Поэтому справедливо следущее

  1. \(y=X\beta+u\)

  2. \(\hat{y}=X\hat{\beta}\)

  3. \(\hat{\beta}=(X'X)^{-1}X'y\)

  4. \(\hat{u}= y- \hat{y}\)

  5. \(E(u)=0_{n \times1}\)

  6. \(Var(u)=\sigma^2\times I_{n\times n}\)

  7. \(RSS= u'u= (y-X\hat{\beta})'(y-X\hat{\beta})=y'y-2\hat{\beta}'X'y+\hat{\beta}'X'X\hat{\beta}\)


Посмотрим теперь на показатели качества подгонки множественной регрессии

В общем-то коэффициент множественной детерминации будет определяться по той же самой формуле, как и раньше \(R^2=\frac{ESS}{TSS}\),и почти все свойства сохраняются с небольшими изменениями.

  1. \(R^2=1-\frac{RSS}{TSS}\), но опять же оговоримся о надобности константы в модели для работы этого свойства.

  2. \(R^2=\frac{\hat{var}(\hat{y})}{\hat{var}(y)}=\sum\limits_{i=1}^k\frac{\hat{cov}(x_i,y)}{\hat{var}(x_i)}\)

  3. \(R^2= \frac{\sum\limits_{i=1}^N (\hat{y}- \overline{y})^2}{\sum\limits_{i=1}^N (y-\overline{y})^2} = \hat{\rho_{y_i, y_i}^2}\)

  4. \(RSS \rightarrow min \Leftrightarrow R^2\rightarrow max\)

  5. При добавлении фактора \(R^2\) не уменьшается


\(R^2=1-\frac{\sum\limits_{i=1}^n \hat{u}(\hat{\beta_0}...\beta_{k})}{\sum\limits_{i=1}^n(y-\overline{y})^2}\)

\(R^2=1-\frac{\sum\limits_{i=1}^n \hat{u}(\hat{\beta_0}...\beta_{k+1})}{\sum\limits_{i=1}^n(y-\overline{y})^2}\)

Если решить задачу максимизации для двух таких \(R^2\), то окажется, что второй \(R^2\) не уменьшится. Проверь это сам, а то вдруг я тебя обманываю.

А пока поговорим про факторное разложение \(R^2\). Сейчас мы будем работать в матриах, напомню, чтобы получить вектор, который состоит из квадратов каких-то велечин, нужно трансонированный вектор умножитm на себя.

\(R^2=\frac{ESS}{TSS}=\)

\(\frac{TSS-RSS}{TSS}=\frac{y'y-u'u}{y'y}=\)

\(\frac{y'y-(y-\hat{y})'*(y-\hat{y})}{y'y}=\)

\(\frac{y'y-(y-X\hat{\beta})'*(y-X\hat{\beta})}{y'y}=\)

\(\frac{y'y-(y'y-\hat{\beta}'X'y-y'X\hat{\beta}+\hat{\beta}'*X'X\hat{\beta})}{y'y}=\)

\(\frac{\hat{\beta}'(X'y-X'X\hat{\beta})+y'X\hat{\beta}}{y'y}=\)

Тут магия линейной алгебры (Просто в лоб и последовательно совешаются арифмитические дейстрия с матрицами, а потом числитель и знеменатель делятся на \((n-1)\). Зачем? А вот смотри… )

\(\frac{(n-1)\sum\limits_{i=1}^k((y-\overline{y})(x_i-\overline{x})\hat{\beta_i})}{(n-1)\sum\limits_{i=1}^k(y-\overline{y})^2}=\frac{\sum\limits_{i=1}^k\times \hat{cov}(x_i,y)}{\hat{var}(y)}\)

Поэтому наш фактор \(x_i\) объясняет долю \(\frac{\frac{\hat{cov}(x_i,y)}{\hat{var}(y)}}{R^2}\) в регрессии


Как мы уже знаем, чем больше \(R^2\), тем по идее наша модель лучше описывает реальность, то есть напихать доф очень много факторов, то даже при единичном значении \(R^2\) модель будет плохой, поэтому умные люди придумали корректировать коэффициент детерминации регрессии на число степеней свободы и назвали его \(R_{adj}\).

\(R_{adj}=\overline{R^2}=1- \frac{RSS/(n-k-1)}{TSS/(n-1)}\)

Свойства:

  1. Cвязь коэффициентов \(R^2\) и \(R^2_{adj}\)

\(R^2_{adj}= 1-(1-R^2)\times\frac{n-1}{n-k-1}\), это следует из из простой арифметики \(R^2=1-\frac{RSS}{TSS} \rightarrow \frac{RSS}{TSS}= 1-R^2\)

2.\(R^2_{adj} \le R^2\)

Замечу еще, что последнее свойство справедливо только для регрессий с одинаковыми зависимыми переменными, но можно взять разные наборы НЕзависимых переменных.

  1. Лучше модель с большим \(R^2_{adj}\)

Вот так незаметно закончилась глава, а ты боялся. :)


Теорема Гаусса-Маркова в матрицах

В каком-то смысле использоваие упрощает нашу жизнь, например, теперь нужно писать только одну формулу для оценок коэффициентов.

Из-за того что когда-то давно мы предположили, что ошибки - это случайная величина, мы имеем право считать оценки коэффициентов случайными величинами. Это работает и в матрицах, так как матрица \(X\) детерминирована, а вектор \(u\) случаен.

\(\hat{\beta}=(X'X)^{-1}X'y= (X'X)^{-1}X'(X\beta+u)= \beta+(X'X)^{-1}X'u\)

Теорема Гаусса-Макркова для множественной регрессии

Если в \(y=X\beta+u\) выполнены предпосылки

  • Модель правильно специфицирована, то есть в нее включены все необходимые факторы, а лишних факторов нет и выбрана правильная функциональная форма модели

  • Ранг матрицы \(X\) максимален, то есть матрица невырожденная

  • \(E(u)=0\)

  • \(Var(u)=\sigma_{u}^2\times I_{n\times n}\)

  • \(\forall\epsilon_i,\epsilon_j \in u, \:\: cov(\epsilon_i, \epsilon_j) = 0\)

тогда оценки МНК являются BLUE

Если ТГМ выполняется, то верно

\(\hat{\sigma_{u}}^2= \frac{RSS}{n-k-1}\), где \(k\) - это количество факторов в модели.


Ура! Тестируем гипотезы в рамках множественной регрессии!

Я исренне верю, что ты умеешь считать односторонние доверительные интервалы, поэтому распишу только двусторонние. Анализ проверки гипотезы немного усложняется, так как мы работаем не с одной бетой, а с множеством бет.

Каков наш план, капитан? А вот, собственно:


  1. Гипотеза о конкретном значении коэффициента

\(H_0: \beta_i=\beta_i^0\)

\(H_a: \beta_i \neq \beta_i^0\)

В случае множественной регрессии \(\frac{\hat{\beta_i}-\beta_i^0}{\hat{\sigma_{\hat{\beta_i}}}}\sim t_{n-k-1}\), тогда доверительный интервал для проверки будет иметь вид:

\(\hat{\beta_i}-t_{n-k-1, \frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_i}}} \le \beta_i^0 \le \hat{\beta_i}+t_{n-k-1,1-\frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_i}}}\)

Если заданное в нулевой гипотезе значение беты попадает в доверительный интервал, тогда гипотеза не отвергается. Похоже на что-то?


  1. Гипотеза о значимости коэффициента

Рассмотрим только случай двусторонней гипотезы:

\(H_0: \beta_i=0\)

\(H_a: \beta_i \neq 0\)

В таком случае \(\frac{\hat{\beta_1}}{\hat{\sigma_{\hat{\beta_1}}}}\sim t_{n-k-1}\), тогда доверительный интервал для проверки будет иметь вид:

\(\hat{\beta_i}-t_{n-k-1, \frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_i}}} \le \beta_1^0 \le \hat{\beta_i}+t_{n-k-1,1-\frac{\alpha}{2}}\times \hat{\sigma_{\hat{\beta_i}}}\)

Если 0 попадает в доверительный интервал, тогда гипотеза не отвергается или иными словами, коэффициент НЕ значим.


  1. Проверка гипотез об адекватности регрессии

Эта гипотеза необходима для проверки наличия линейной зависимости между \(x\) и \(y\). Если раньше достаточно было проверить значимость \(x\), то сейчас надо поступить хитрее. Так как в множественной регрессии существует совокупное влияние нескольких \(x_{i,j}\) на \(y\), то давай проверим гипотезу о том, что все коэффициенты равны 0.

\(H_0: \beta_0=...= \beta_k=0\)

\(H_a: \exists \beta_i \neq 0, \; \forall i=1... k\)

Иными словами нулевая гипотеза гласит, что выбранный набор независимых переменных НЕ оказывает линейного воздействия на \(y\).

Teстовая статистика для проверки гипотезы имеет вид:

\(\frac{ESS/k}{RSS/(n-k-1)}=\frac{R^2/k}{(1-R^2)/(n-k-1)} = F_{k, \; n-k-1}\)

Грустно тут придумывать доверительный интервал, поэтому просто нужно сравнить полученное значение F-теста с критическим для обозначенного количества степеней свободы

Гипотеза отвергается, если \(F_{k, \; n-k-1} > F_{\alpha (k, \; n-k-1)}^{cr}\)

А теперь разовьем мысль: а что если в \(y\) добавить скажем \(m-k\) переменных, а чего мелочиться, то каков будет вклад новых факторов в регрессии?

Для этого уже есть гипотеза и статистика.

\(H_0:\:\beta_{k+1}=...= \beta_m=0\)

\(H_a: \exists \beta_i \neq 0, \; \forall i=k+1... m\)

\(\frac{(RSS-RSS_m)/m-k}{RSS_m/(n-m)} = F_{m-k, \; n-m}\)

Если гипотеза отвергается, то вклада новые факторы не приносят.


  1. Проверка общей гипотезы о наличии линейных соотношений между коэффициетнов

Что такое линейные ограничения? Это когда несколько бет при разных факторах равны между собой или просто равны 0.

Строго говоря, есть три варианта, как проверить такую гипотезу: громоздким t-тестом, тестом Вальда и F-тестом, о последнем, как о наиболее удобном мы и поговорим ниже.

Пусть \(Q\) это некоторая матрица размера \((q\times k+1)\), где q -это количество линейно независимых ограничений на коэффициенты (то есть количество не выражаемых друг из друга ограничений).

\(H_0: Q\beta= q\)

\(H_a: Q\beta \neq q\)

\(F=\frac{(RSS_r-RSS_{ur})/q}{RSS_{ur}/(n-k-1)} = \frac{(R^2_{ur}-R^2_r)/q}{(1-R^2_{ur})/(n-k-1)}\), где \(RSS)r\) -модель с учетом всех ограничений \(RSS_{ur}\)- модель без ограничений.

Если гипотеза не отвергается, то лучше использовать короткую модель, потому что она удобнее для анализа. И знаешь, для объяснения такой статистики есть геометрическая интерпретация.

#Тут будет график. Скоро. А вообще, если ты знаешь, как тут рисовать 3д модели, помоги мне, пожалуйста.

Функциональна форма регрессии и еще немножко о тестах

Всегда ли удобно использовать регрессию для выборки в лоб? Если я задаю такой вопрос, то очевидно, что ответ “нет”, и это так. Действительно, а зачем тогда люди придумывали логарифмы и всякие разные преобразования? Конечно, чтобы облегчить нам жизнь. ~~ если нет, то гуманитария ответ ~~. Давай разбираться, как можно преобразовывать переменные в регрессиях.

Что делать, если зависимость задана \(\hat{y_i}= \hat{\beta_0}+\frac{\hat{\beta_1}}{x_i}\) или \(y= \hat{\beta_1}X^{\hat{\beta_2}}\) ? Ну не плакать же, ведь в конце концов к обеим зависимостям можно применить линейный регрессионный анализ :)

Заметим опять же, что для метрики важна линейность по параметрам, а не по переменным, поэтому можно заменить \(z_i=\frac{1}{x_i}\) и радоваться жизни дальше. А что делать с \(y= \hat{\beta_1}X^{\hat{\beta_2}}\), ведь преобразование вида \(z_i=\sqrt[\hat{\beta_2}]x_i\) приведет в ужас эконометриста, потому что модель мамочки не линейна и по параметрам, и по переменным. Но все же можно к ней применять линейный регрессионный анализ, если ты владеешь темной-темной магией логарифми-и-ирования. Но если серьезно, то сейчас ты поймешь, что без логарифмов никуда, ведь он подобен утюжку для волос, который из кудельков делает прямые волосы, но только для функций.

:sparkles: А теперь магия

\(y= \hat{\beta_1}X^{\hat{\beta_2}}\)

\(lny= ln\hat{\beta_1}+ \hat{\beta_2}lnx\)

Вот и все :)

Такое преобразование дает нам логлинейную зависимость, ибо она линейна относительно логарифмов. Как интерпретировать такую зависимость? В нашем случае трудно дать интерпретацию \(\hat{\beta_1}\), но для \(\hat{\beta_2}\) она есть, бэта при факторе показывает, на сколько процентов изменится наш \(y\) при изменении на 1% \(x\). Ничего не напоминает? Да, эластичность даже тут нас нашла

Иногда природные процессы бывают сложными и описываются так: \(y= \hat{\beta_1}e^{\hat{X\beta_2}}\). Что же делать? Так, ну-ка утер слезы! Зовем логарифм!

\(y= \hat{\beta_1}e^{\hat{X\beta_2}}\)

\(lny= ln\hat{\beta_1}+ lne^{\hat{X\beta_2}}\)

\(lny= ln\hat{\beta_1}+ \hat{X\beta_2}\)

Вот так мы снова справились с нелинейностью! Такие модели называют полулогарифмическими моделями. Но как же интерпретировать нашу модель? Теперь \(\beta_2\) означает изменение \(y\) в процентах при изменении \(x\) на одну абсолютную величину.

А теперь вопрос на миллион. Как выбрать нужную модель, если они все классненькие и линейные, да еще и все адекватно описывают. Ответ: надо тестировать.


Как выбрать функциональную форму модели, если все они тебе нравятся?

Умение линеризировать модель в неком роде формализует линейный регрессионный анализ, что на руку исследователю, но одновременно это здорово усложняет ему жизнь, так как при непосредственном выборе формы модели нельзя сравнивать сумму квадратов отклонений и \(R^2\), как мы делали в случае наличия ограничений в модели, потому что теперь эти показатели не измеряют одно и тоже, а если еще и безразмерный \(R^2\) в двух регрессиях почти одинаковый, то все равно надо держать себя в руках и не плакать!

Есть три теста, которые надо знать:

1.Тест Бера-МакАлера или как выбрать за четыре шага между полулогарифмической и линейной моделью.

Шаг 1:

Найдем оцененные значения зависимой переменной в каждой модели \(\hat{y}, \;\hat{lny}\)

Шаг 2:

Составим вспомогательные регресии

\(e^{\hat{y}}= \beta_0 +\sum\limits_{i=1}^k \beta_i x_i +\epsilon_{1,i}\)

\(ln\hat{y}= \beta_0 +\sum\limits_{i=1}^k \beta_i x_i +\epsilon_{2,i}\)

Шаг 3: Оценим совсем новые регрессии

\(lny= \beta_0+\sum\limits_{i=1}^k\beta_ix_i +\theta_1\hat{\epsilon_{1,i}} +u_i\)

\(y= \beta_0+\sum\limits_{i=1}^k\beta_ix_i +\theta_1\hat{\epsilon_{2,i}} +u_i\)

Шаг 4: Сравним \(\hat{\theta_1}\) и \(\hat{\theta_2}\), если \(\hat{\theta_1}\) значим, то выбираем полулогарифмическую модель, если значим \(\hat{\theta_2}\) - то линейную, а если оба коэффициента одновременно значимы или незначимы, то можно наконец-то пустить скупую слезу, потому что придется применить другой тест.

2. РЕ-тест МакКиннона для выбора между полулогарифмической и линейной моделью.

Шаг 1:

Найдем оцененные значения зависимой переменной в каждой модели \(\hat{y}, \;\hat{lny}\)

Шаг 2: Оценим вспомогательные регрессии

\(ln\hat{y}= \beta_0 +\sum\limits_{i=1}^k \beta_i x_i +\gamma_1 (\hat{y}- e^{\hat{lny}})+ \epsilon_1\)

\(\hat{y}= \beta_0 +\sum\limits_{i=1}^k \beta_i x_i +\gamma_2 (ln\hat{y}- \hat{lny}) +\epsilon_2\)

Шаг 3: Оцениваем эту модель и сравниваем значимость \(\gamma\)

Eсли \(\hat{\gamma_1}\) НЕзначим, то выбираем полулогарифмическую модель, если НЕзначим \(\hat{\gamma_2}\) - то линейную, а если оба коэффициента одновременно значимы или незначимы, то вообще есть повод забеспокоиться.

2. РЕ-тест МакКиннона для выбора между логарифмической и линейной моделью.

Шаг 1:

Найдем оцененные значения зависимой переменной в каждой модели

\(\hat{y}=\beta_0 +\sum\limits_{i=1}^k \beta_i x_i +\epsilon_{1,i}\)

\(\hat{lny} =\beta_0 +\sum\limits_{i=1}^k \beta_i lnx_i +\epsilon_{1,i}\)

Шаг 2: Оценим вспомогательные регрессии

\(ln\hat{y}= \beta_0 +\sum\limits_{i=1}^k \beta_i lnx_i +\delta_1 (\hat{y}- e^{\hat{lny}})+ \epsilon_1\)

\(\hat{y}= \beta_0 +\sum\limits_{i=1}^k \beta_i x_i +\delta_2 (ln\hat{y}- \hat{lny}) +\epsilon_2\)

Шаг 3: Оцениваем эту модель и сравниваем значимость \(\delta\)

Eсли \(\hat{\delta_1}\) НЕзначим, то выбираем логарифмическую модель, если НЕзначим \(\hat{\delta_2}\) - то линейную, а если оба коэффициента одновременно значимы или незначимы, то есть серьезный такой повод забеспокоиться.

3. Универсальный тест Бокса-Кокса №1

Это волшебный тест, где мы меняем масштаб наблюдений \(y\), чтобы сравнивать \(RSS\) непосредственно.

Шаг 1: Вспомним, что среднее геометрическое должно быть равно экспоненте среднего арифметического

\(e^{\frac{1}{n}\sum\limits_{i=1}^n ln(y)}=e^{\frac{1}{n}ln(П_{i=1}^n y)}=(П_{i=1}^n y)^\frac{1}{n}\)

Шаг 2: Масштабируем наблюдения

\(y_i^* = \frac{y_i}{(П_{i=1}^n y)^\frac{1}{n}}\)

\(ln(y_i^*)= ln(\frac{y_i}{(П_{i=1}^n y)^\frac{1}{n}})\)

Шаг 3:

Оценим модели с использованием \(y_i^*\) и \(ln(y_i^*)\), а потом просто оценим \(RSS\) двух моделей

3. Тест Бокса-Кокса №2 интуитивно труднопонимаемый, но легко заучиваемый

По сути это такой же Бокс-Кокс как и раньше, но с неочевидной трансформацией переменных.

Шаг 1: Введем саму трансформацию

\(y^{(\lambda)}=\frac{y^{\lambda}-1}{\lambda}, \: \lambda \neq 0\), чтобы избежать неопределенности. Если устремить лямбду к нулю и воспользоваться правилом Лопиталя, то получим логарифм игрека

В общем виде

\[\begin{equation*} y^{(\lambda)} = \begin{cases} \frac{y^{\lambda}-1}{\lambda}, \lambda \neq 0\\ lny, \lambda = 0 \end{cases} \end{equation*}\]

Тогда линейная форма принимает интересный вид

\(\hat{y^{(\lambda)}}=\beta_0 +\sum\limits_{i=1}^k \beta_i x_i^{(\theta)} +\epsilon_{1,i}\)

\[\begin{equation*} x^{(\theta)} = \begin{cases} \frac{x^{\theta}-1}{\theta}, \theta \neq 0\\ lnx, \theta = 0 \end{cases} \end{equation*}\]

В оцененной модели нас теперь интересуют сразу значимость и лямбды, и теты.

\(\theta=\lambda=1\) выбираем линейную модель

\(\theta=\lambda=0\) выбираем логлинейную модель

\(theta=1\) без сомнений используем линейную модель

\(\lambda=0\) использовать полулогарифмическую модельку

\(\theta=-1, \lambda=1\), то \(y_i=\beta_0+\beta_1\times \frac{1}{x_i}+u_i\)


Фиктивные переменные и зачем они нужны

Фиктивные переменные или их еще называют дамми - это такие классые переменные, которые принимают только два значения: 0 и 1. Их называют качественными, потому что они не измеримы по какой-либо шкале. Они переменные нужны для “разветвления” регрессий на два или больше путей развития событий.

Классическим примером всегда является уравнение минцеровского типа (да-да, экономика труда) для заработной платы.

\(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_0}\times D_1( Male)+ \hat{\beta_1}\times Edu+\hat{\beta_2}\times City\)

Пусть

\[\begin{equation*} D_i = \begin{cases} 1 &\text{, for Male}\\ 0 &\text{, for Female} \end{cases} \end{equation*}\]

Заметим, что постановка задачи нетолерантная, тут рассматривается не только два гендера, но еще и женщинам определен 0. Грусть и боль, но мы идем далее.

Так вот, в нашей нетолерантной задаче респонденты делятся на два вида, и для каждого существует своя регрессия.

Для мужчин \(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_0}+ \hat{\beta_1}\times Edu+\hat{\beta_2}\times City\)

Для женщин \(ln(\hat{W})=\hat{\beta_0'}+ \hat{\beta_1}'\times Edu+\hat{\beta_2'}\times City\)

очевидно, что зарплаты мужчин в среднем на \(\hat{\psi_0}\) процентов выше, чем у женщин.

Но можно еще поиграть с моделью.

\(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_0}\times D_1( Male)+\hat{\beta_1}\times\hat{\psi_1}\times D_1 Edu+\hat{\beta_2}\times City\)

Пусть

\[\begin{equation*} D_1 = \begin{cases} 1 &\text{, for Male}\\ 0 &\text{, for Female} \end{cases} \end{equation*}\]

Пусть

\[\begin{equation*} D_2 = \begin{cases} 1 &\text{, for High education}\\ 0 &\text{, for only School graduation} \end{cases} \end{equation*}\]

Интерпретация дамми переменной все такая же не толерантная, даже хуже. Теперь мы не просто мужчин от женщин разделяем, а еще высокообразованных людей от не очень образованных. Наши регрессии принимают вид

Образованные

Для мужчин

\(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_0}+\hat{\beta_1}\times\hat{\psi_1}Edu+\hat{\beta_2}\times City\)

Для женщин

\(ln(\hat{W})=\hat{\beta_0'}+\hat{\beta_1'}\times\hat{\psi_1}\times Edu+\hat{\beta_2'}\times City\)

Youtube бьюти блоггеры и те, кто ушел после 9-го класса.

Для мужчин

\(ln(\hat{W})=\hat{\beta_0"}+\hat{\psi_0}+\hat{\beta_2"}\times City\)

Для женщин

\(ln(\hat{W})=\hat{\beta_0^*}+\hat{\beta_2^*}\times City\)

В этом случае у нас 4 регрессии, и если рассматривать их отдельно по группам, то можно заметить, что кроме константы для мужчин и женщин меняется угол наклона для образованных и не очень (простите меня за нетолерантность и оскорбление чувств выбравших иной путь… хотя.. надеюсь, что вторая группа в выборке никогда этого не прочитает)

Но если быть честным, то где ты видел страну, в которой существует только два типа образования? Я осмелюсь предположить, что таких стран вообще нет.

В России, например, существуют школы, техникумы, колледжи, военные училища, вузы, программы дополнительного профессионального образования, а каждый из перечисленных уровней образования в свою очередь делится на свои подуровни, поэтому деление на 2 ветки не корректно. Давай соберем мужчин и женщин в одну выборку обратно, а вот фактор \(Edu\) размножим до вот такого набора: \(School, \;Tech,\; College, \;Uni\). Как думаешь, сколько дамми переменных нам нужно? Верно 3 штуки, чтобы избежать коварной ловушки дамми-переменных. Ведь как говорит один всем известный и великий Пэр:

Настоящие джентельмены и благородные дамы никогда не включают дамми-переменные на все значения факторной переменной и константу в свою регрессию, потому что знают о недопустимости существования жесткой линейной зависимости между регрессорами, ведь иначе нарушается неприложный закон ТГМ о линейной независимости регрессоров.

Пусть основной регрессией, относительно которой мы будем проводить сравнение, будет та,что выделяет людей с дипломом вузв от остальных. В общем виде оцененная модель имеет вид:

\(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_1}\times D_1 Sch+\hat{\psi_2}\times D_2 Tech+\hat{\psi_3}\times D_3 Coll+\hat{\beta_1}\times City\)

Она разветвляется на

Тех, кто закончил 11 классов \(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_1}\times Sch+\hat{\beta_2}\times City\)

Тех, кто закончил 9 классов и техникум \(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_2}\times Tech+\hat{\beta_2}\times City\)

Тех, кто закончил 11 классов и колледж \(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_3}\times Coll+\hat{\beta_2}\times City\)

Тех, кто закончил 11 классов и вуз \(ln(\hat{W})=\hat{\beta_0}+\hat{\beta_2}\times City\)

Вот так мы с помощью дамми-переменной развили наш анализ на 4 ветки и избежали ловушки дамми. Замечу, что выбор базовой категории никак не влияет на наклон уравнения, но меняет показатель стандартной ошибки для бэты.

Наверное в процессе чтения у тебя возник законный вопрос, а почему перед дамми стоит какая-нибудь другая свободная греческая буква, но не бэта?

А вот почему. На самом деле каждую из регрессий можно построить без использования дамми, просто заранее разбив выборки нужным способом. Но дело это прямо сказать, мучительное муторное, поэтому было придумано вот что.

Умные, но уставшие ученые предложили найти разницу между бэтами в регрессиях для женщин и мужчин и положить ее равной некоторой \(\gamma\), которую надо ставить перед особенной бинарной переменной (дамми). Так вот для женщин будет исходная маленькая бета ноль, а для мужчин бэта ноль плюс гамма, то есть их родное большое значение бэты ноль штрих. Так и была положена эра благоразумия дамми переменных. Хотя никто не отрицает, что бэта штрих может бытьменьше бэты 0 из-за отрицательной гаммы, но я человек позитивный и отрицательные числа не очень люблю, но признаю их существование. :)


Тесты, тесты и еще раз тесты!

Как ты уже понял, главное правило эконометриста “доверяй, но проверяй”, поэтому в этой главе мы снова будем тестировать наши гипотезы, но теперь уже с дамми-переменными.

Начнем с самой простой гипотезы, которая состоит в том, что разница \(\gamma\) равна нулю, её проверяют стандартным \(t\)-тестом в случае одной фиктивной переменной, а что делать, если таких “пустых” переменных много?

Предположим, что тестируется наша гипотеза

\(ln(\hat{W})=\hat{\beta_0}+\hat{\psi_1}\times D_1 Sch+\hat{\psi_2}\times D_2 Tech+\hat{\psi_3}\times D_3 Coll+\hat{\beta_1}\times City\)

\(H_0:\psi_1=\psi_2=\psi_3=0\)

\(H_a: \exists\psi_i\neq0\;\forall i\in[1,2,3]\)

Как мы уже знаем, такие гипотезы проверяют F-тестом

Тестируемая статистика имеет фид

\(F=\frac{(RSS_{NO\;DUMMIES}-RSS_{WITH\; DUMMIES})/\:\:(k+1)}{(RSS_{WITH\; DUMMIES})/(n-2k-2)}\)

Тест Чоу

Или как исследовать структурную устойчивость коэффициентов модели. Бывает, что существует выборка с 2-мя сильно различными подвыборками, и исследователь стоит перед выбором: оценивать единую выборку или же каждую подвыборку отдельно. Для того, чтобы делать правильный выбор, был придуман тест Чоу. Для примера мы продолжаем использовать уравнение Минцера.

\(ln(\hat{W_{pooled}})=\hat{\beta_0}+\hat{\psi_1}\times D_1 Sch+\hat{\psi_2}\times D_2 Tech+\hat{\psi_3}\times D_3 Coll+\hat{\beta_1}\times City\)

Единую зависимость в регрессии с дамми-переменными можно проверить иначе. Ведь мы знаем, как выглядит оцененная модель, когда все дамми равны 0.

\(ln(\hat{W_2})=\hat{\beta_0}+\hat{\beta_2}\times City\)

Предположим, что все дамми равны 1, это конечно же, невозможно, но вдруг… на самом деле в таком случае, мы просто используем факт, что у человека есть какое-то образование, что просто соответствует фактору \(Edu\), тогда всмомним историю про усталых ученых и гамму.

\(\beta_i'=\beta_i+\psi_i\), тогда регрессия будет вида

\(ln({W_{1}})=(\beta_0+\psi_0)+(\psi_1+\beta_1)\times Sch+(\psi_2+beta_2) Tech+(\psi_3+\beta_3)Coll+(\psi_4+\beta_4) City\)

И наша нулевая гипотеза принимает вид

\(H_0:\psi_i=\beta_i'\)

\(H_a: \exists\psi_i\neq \beta_i'\:\;\forall i\in[1,2,3]\)

А теперь сама статистика

\(F=\frac{(RSS_{pooled}-RSS_1-RSS_2)/(k+1)}{(RSS_1+RSS_2)/(n-2k-2)}\)

Eсли посмотреть внимательно, то будет ясно, что эта статистика очень похожа на статистику, которая проверяет нличие линейных ограничений, а значит \(RSS_{pooled}=RSS_R\), a \(RSS_1+RSS_2=RSS_{ur}\), поэтому можно сделать вывод, что \((RSS_1+RSS_2) \le RSS_{pooled}\)


Последняя тема к экзамену! Пропущенные переменные и избыток факторов.

В районе темы ТГМ я уже говорила, что пихать в регрессию все факторы, которые тебе попались на глаза, - это очень плохая идея. Но теперь мы от императивного правила перейдем к осознанию проблемы излишка или нехватки факторов в регрессии, а якорным словом для нас станет “смещение” .

Пусть истинная модель имеет вид \(y_i=\beta_0+\beta_2x_{1,i}+\beta_2x_{2,i}+\beta_3x_{3,i}+u\)

Но по каким-то неведомым причинам, скажем, потому что решили оценивать модель в 2 часа ночи из-за бессоницы, наша оцененная модель имеет вид:

\(\hat{y_i}=\hat{\beta_0}+\hat{\beta_2}x_{1,i}+\hat{\beta_2}x_{2,i}\)

Тогда бэта 2 будет одновременно играть две роли, а именно отражать влияние второго фактора и мнимый эффект третьего фактора, который определяется способностью имитировать поведение третьего фактора вторым фактором и,собственно, чистым эффектом влияния третьего фактора на объясняемую переменную.Все это порождает смещение оценок бэточек, а те в свою очередь делают некорректным результат оценивания стандартной ошибки, что уже в свою очередь ведет к смещению Т-статистик, а это черевато тем, что какой-нибудь важный в реальности фактор при проверке гипотез станет незначимым, что может привести к очень большим проблемам мирового масштаба.

Формально это записывается таким образом при “неучете важного фактора” \(\hat{\beta_i}=\beta_i+ \beta_j\times \frac{\hat{cov}(x_i,x_j)}{\hat{var}(x_j)}\) и если ковариация между иксами или сама бета пропущенного фактора равны нулю, то оценка будет несмещенной, потому что мнимого следа не будет.

Поэтому, чтобы даже в 2 ночи правильно выбирать факторы для регрессий, был разработан ряд тестов.

Давай рассмотрим самый популярный тест - тест Рамсея или RESET-test.

Этот тест отвечает на вопрос, а надо ли включать в регрессию еще факторы или может уже все нужные учтены?

Тут матрицы и векторы! Осторожно!

Исходная модель \(y=\beta_0+\beta_1x_{1}+\beta_2x_{2}+\beta_3x_{3}+u\)

Шаг 1

Оцениваем модельки и внимательно глядим на вектор оцененной объясняемой переменной.

\(\hat{y}=\hat{\beta_0}+\hat{\beta_1}x_{1}+\hat{\beta_2}x_{2}+\hat{\beta_3}x_{3}\)

Шаг 2

Шаманим новую модель,где включаем после всех \(k\) начальных факторов еще \(m\) в виде оцененного игрека, который возводится в степень равную порядковому номеру свого коэффициентa - дельты- плюс 1. И оцениваем модель.

\(y=\beta_0+\beta_1x_{1}+\beta_2x_{2}+\beta_3x_{3}+\delta_1\times\hat{y}^2+\delta_2\times\hat{y}^3+\delta_3\times\hat{y}^4+\delta_4\times\hat{y}^5 +u\)

Шаг 3

Теперь гипотеза об отсутствии пропущенных переменных может быть задана следущим образом

\(H_0: \;\; \forall \delta_i , \delta_i=0, \;\; i\in[1, m]\)

\(H_a: \;\; \exists \delta_i\neq 0\)

Тогда снова прибегнем к F-тесту вида. Если статистика больше критического значения, то мы молодцы, потому что включили все значимые переменные.

\(F= \frac{(RSS_r-RSS_{ur})/(m-1)}{RSS_{ur}/(n-k-m+1)}\)

Вот и все.


Удачи тебе на экзамене! Все будет хорошо!