Коан 9 Гетероскедастичность в простой регрессии

Одним из нарушений условий ТГМ является гетероскедастичность, возникающая ввиду неодинаковых дисперсий для разных наблюдений. Она нежелательна ввиду того, что оценки МНК не являются эффективными (но остаются несмещёнными), и предпосылки для использования t-статистик нарушены, что даёт неверный результат о значимости коэффициентов.

Этот коан благословит Вас на поиски гетероскедастичности и просветит о способах борьбы с ней.

Будем анализировать гетероскедастичность на данных о стоимости квартир.

Мини-теория:

Тест Уайта

Он неконструктивный, он может лишь показать наличие гетероскедастичности, асимптотический. Нормальность остатков в предпосылках не требуется, подразумевается, что \[E({\varepsilon^4_i}) = const\].

\[ \begin{cases} H_0: \sigma^2_i = \sigma^2 \\ H_1: \sigma^2_i \neq = \sigma^2 \\ \end{cases} \]

На первом шаге тест сохраняет остатки от построения начальной регрессии. \[ \hat{\ln{(pricemetr_i)}} = \hat{\beta}_0 + \hat{\beta}_{\ln{(kitsp)}} \cdot \ln{(kitsp_i)} + \hat{\beta}_{\ln{(livesp)}}\cdot \ln{(livesp_i)} + \hat{\beta}_{\ln{(dist)}}\cdot \ln{(dist_i)} + \hat{\beta}_{\ln{(metrdist)}}\cdot \ln{(metrdist_i)} \] На втором - строится вспомогательная регрессия (X_j-вектор j-го фактора). \[ \hat{e}^2_i = \hat{\alpha}_0 + \sum_{j=1}^{k} \hat{\alpha}_j \cdot X_j + \sum_{j=1}^{k} \hat{\gamma}_j \cdot X^2_j + \sum_{j < m}^{k} \hat{\delta}_j X_j \cdot X_m \]

R-squared построенной вспомогательной регрессии должен быть распределён как: \[ n \cdot R^2_{aux} \sim \chi^2_{K-1} \] где K – число факторов во вспомогательной регрессии.

Тест Бройша - Пагана

Тест Бройша - Пагана — обобщённый вариант теста Уайта. В тесте Бройша-Пагана во вспомогательной регрессии можно брать любые функции от регрессоров, в тесте Уайта - регрессоры, их квадраты и кросс-произведения. Тест Бройша-Пагана является асимптотическим.

\[ \begin{cases} H_0: \sigma^2_i = \sigma^2 \\ H_1: \sigma^2_i \propto f(\alpha_0 + \alpha_1 \cdot Z_1 + \ldots + \alpha_p \cdot Z_p) \\ \end{cases} \]

Классическая версия Бройша - Пагана строится на основе метода максимального правдоподобия. Предпосылками классической версии теста являются нормальность остатков, существование у функции дисперсии из альтернативной гипотезы первой и второй производной. Считается LM-статистика, которая, при верной основной гипотезе об отсутствии гетероскедастичности, имеет хи-квадратное распределение с p-1 степенью свободы.

Современная модификация теста не требует нормальности остатков, лишь \[{\mathbb E}({\varepsilon^4_i}) = const\].

На первом шаге строится исходная регрессия и сохраняются остатки. Затем строится состоятельная оценка дисперсии: \[ \hat{\sigma}^2 = \frac{1}{n} \cdot \sum_{i=1}^{n} {e^2_i} \]

Потом строится вспомогательная регрессия:

\[ \frac{e^2}{\hat{\sigma}^2} = \alpha_0 + \alpha_1 \cdot Z_1 + \ldots + \alpha_p \cdot Z_p + u \]

И рассчитывается тестовая статистика:

\[ \frac{RSS_{aux}}{2} \sim \chi^2_{p} \]

Тест Голдфелда - Квандта

\[ \begin{cases} H_0: \sigma^2_i = \sigma^2 \\ H_1: \sigma^2_i \propto X_i \\ \end{cases} \]

Этот тест предполагает нормальность остатков и является неасимптотическим.

Процедура:

Сначала все наблюдения сортируются по возрастанию абсолютного значения фактора, вызывающего гетероскедастичность.

Затем отсортированный ряд по фактору делится на 3 примерно равные части. Считаются гетероскедастичности по первой и третьей части ряда. Строится F- статистика:

\[ \frac{RSS_2}{RSS_1} \sim F_{r - k, r-k} \]

WLS как способ борьбы с гетероскедастичностью

Веса – оценка обратной дисперсии переменной, вызывающей гетероскедачность.

То есть оценим регрессию: \[ \frac{\ln{(pricemetr_i)}}{\hat{\sigma}_i} = \frac{\beta_0}{\hat{\sigma}_i} + \frac{\beta_{\ln{(kitsp)}} \cdot \ln{(kitsp_i)}}{\hat{\sigma}_i} + \frac{\beta_{\ln{(livesp)}} \cdot \ln{(livesp_i)}}{\hat{\sigma}_i} + \frac{\beta_{\ln{(dist)}} \cdot \ln{(dist_i)}}{\hat{\sigma}_i} + \frac{\beta_{\ln{(metrdist)}} \cdot \ln{(metrdist_i)}}{\hat{\sigma}_i} + \frac{\varepsilon_i}{\hat{\sigma}_i} \]

где r - размер первой и третьей частей отсортированного ряда.