Коан 3 Модель бинарного выбора
Мини-теория:
Линейная вероятностная модель Можно оценить вероятность бинарной зависимой переменной принимать определённое значение (чаще, 1). Линейная вероятностная модель имеет вид:
\[ P(y_i = 1) = x_i^T \cdot \beta + \varepsilon_i \]
Однако такой подход обладает существенными недостатками: нереалистичное значение оцененной вероятности, ошибки, распределённые не нормально и гетероскедастичность, поэтому есть необходимость оценивания логит- и пробит- моделей.
Логит - модель Предполагается, что существует скрытая (латентная) переменная, для которой строится модель, \[ y^*_i = x_i^T \cdot \beta + \varepsilon_i, \]
так, что: \[ Y_i = \begin{cases} 1, &\text{если ${y_i}^* \geqslant 0$}\\ 0, &\text{если ${y_i}^* < 0$} \end{cases} \]
\[ \varepsilon_i \sim logistic, \\f(t) = \frac{e^{-t}}{(1 + e^{-t})^2} \] LR-тест
В текущем коане будем тестировать \(H_0: \beta_{white} = 0\) против \(H_a: \beta_{white} \neq 0\).
Статистика LR-теста имеет вид: \[ 2 \cdot (\ln(L) - \ln(L_{H_0})) \sim \chi^2_r, \] где \(\ln(L)\) — логарифм функции правдоподобия, \(\ln(L_{H_0})\) — логарифм функции правдоподобия со значениями параметров из основной гипотезы, r - количество ограничений в основной гипотезе.
Пробит-модель Также предполагается, что существует скрытая (латентная) переменная, для которой строится модель, \[ y^*_i = x_i^T \cdot \beta + \varepsilon_i, \] так, что: \[ Y_i = \begin{cases} 1, &\text{если ${y_i}^* \geqslant 0$}\\ 0, &\text{если ${y_i}^* < 0$} \end{cases} \]
\[ \varepsilon_i \sim N(0; 1), \\ f(z) = \frac{1}{\sqrt{2 \pi}} \cdot \int_{- \infty}^{z} e^{- \frac{t^2}{2}} dt \]
Сейчас попробуем подружиться с моделями бинарного выбора на основе данных
bwght.dta
, где зависимая переменная отражает, является индивид курильщиком или нет, а в качестве независимых переменных представлены характеристики индивида: количество выкуриваемых сигарет, семейный доход, налог на сигареты, цена сигарет, образование отца и матери, паритет, цвет кожи.