Коан 3 Модель бинарного выбора

Мини-теория:

Линейная вероятностная модель Можно оценить вероятность бинарной зависимой переменной принимать определённое значение (чаще, 1). Линейная вероятностная модель имеет вид:

\[ P(y_i = 1) = x_i^T \cdot \beta + \varepsilon_i \]

Однако такой подход обладает существенными недостатками: нереалистичное значение оцененной вероятности, ошибки, распределённые не нормально и гетероскедастичность, поэтому есть необходимость оценивания логит- и пробит- моделей.

Логит - модель Предполагается, что существует скрытая (латентная) переменная, для которой строится модель, \[ y^*_i = x_i^T \cdot \beta + \varepsilon_i, \]

так, что: \[ Y_i = \begin{cases} 1, &\text{если ${y_i}^* \geqslant 0$}\\ 0, &\text{если ${y_i}^* < 0$} \end{cases} \]

\[ \varepsilon_i \sim logistic, \\f(t) = \frac{e^{-t}}{(1 + e^{-t})^2} \] LR-тест

В текущем коане будем тестировать $H_0: \beta_{white} = 0$ против $H_a: \beta_{white} \neq 0$.

Статистика LR-теста имеет вид: \[ 2 \cdot (\ln(L) - \ln(L_{H_0})) \sim \chi^2_r, \] где $\ln(L)$ — логарифм функции правдоподобия, $\ln(L_{H_0})$ — логарифм функции правдоподобия со значениями параметров из основной гипотезы, r - количество ограничений в основной гипотезе.

Пробит-модель Также предполагается, что существует скрытая (латентная) переменная, для которой строится модель, \[ y^*_i = x_i^T \cdot \beta + \varepsilon_i, \] так, что: \[ Y_i = \begin{cases} 1, &\text{если ${y_i}^* \geqslant 0$}\\ 0, &\text{если ${y_i}^* < 0$} \end{cases} \]

\[ \varepsilon_i \sim N(0; 1), \\ f(z) = \frac{1}{\sqrt{2 \pi}} \cdot \int_{- \infty}^{z} e^{- \frac{t^2}{2}} dt \]

Сейчас попробуем подружиться с моделями бинарного выбора на основе данных bwght.dta, где зависимая переменная отражает, является индивид курильщиком или нет, а в качестве независимых переменных представлены характеристики индивида: количество выкуриваемых сигарет, семейный доход, налог на сигареты, цена сигарет, образование отца и матери, паритет, цвет кожи.