Коан 9 Гетероскедастичность в простой регрессии
Одним из нарушений условий ТГМ является гетероскедастичность, возникающая ввиду неодинаковых дисперсий для разных наблюдений. Она нежелательна ввиду того, что оценки МНК не являются эффективными (но остаются несмещёнными), и предпосылки для использования
t
-статистик нарушены, что даёт неверный результат о значимости коэффициентов.
Этот коан благословит Вас на поиски гетероскедастичности и просветит о способах борьбы с ней.
Будем анализировать гетероскедастичность на данных о стоимости квартир.
Мини-теория:
Тест Уайта
Он неконструктивный, он может лишь показать наличие гетероскедастичности, асимптотический. Нормальность остатков в предпосылках не требуется, подразумевается, что \[E({\varepsilon^4_i}) = const\].
\[ \begin{cases} H_0: \sigma^2_i = \sigma^2 \\ H_1: \sigma^2_i \neq = \sigma^2 \\ \end{cases} \]
На первом шаге тест сохраняет остатки от построения начальной регрессии. \[ \hat{\ln{(pricemetr_i)}} = \hat{\beta}_0 + \hat{\beta}_{\ln{(kitsp)}} \cdot \ln{(kitsp_i)} + \hat{\beta}_{\ln{(livesp)}}\cdot \ln{(livesp_i)} + \hat{\beta}_{\ln{(dist)}}\cdot \ln{(dist_i)} + \hat{\beta}_{\ln{(metrdist)}}\cdot \ln{(metrdist_i)} \] На втором - строится вспомогательная регрессия (X_j-вектор j-го фактора). \[ \hat{e}^2_i = \hat{\alpha}_0 + \sum_{j=1}^{k} \hat{\alpha}_j \cdot X_j + \sum_{j=1}^{k} \hat{\gamma}_j \cdot X^2_j + \sum_{j < m}^{k} \hat{\delta}_j X_j \cdot X_m \]
R-squared
построенной вспомогательной регрессии должен быть распределён как:
\[
n \cdot R^2_{aux} \sim \chi^2_{K-1}
\]
где K
– число факторов во вспомогательной регрессии.
Тест Бройша - Пагана
Тест Бройша - Пагана — обобщённый вариант теста Уайта. В тесте Бройша-Пагана во вспомогательной регрессии можно брать любые функции от регрессоров, в тесте Уайта - регрессоры, их квадраты и кросс-произведения. Тест Бройша-Пагана является асимптотическим.
\[ \begin{cases} H_0: \sigma^2_i = \sigma^2 \\ H_1: \sigma^2_i \propto f(\alpha_0 + \alpha_1 \cdot Z_1 + \ldots + \alpha_p \cdot Z_p) \\ \end{cases} \]
Классическая версия Бройша - Пагана строится на основе метода максимального правдоподобия. Предпосылками классической версии теста являются нормальность остатков, существование у функции дисперсии из альтернативной гипотезы первой и второй производной. Считается LM-статистика, которая, при верной основной гипотезе об отсутствии гетероскедастичности, имеет хи-квадратное распределение с p-1 степенью свободы.
Современная модификация теста не требует нормальности остатков, лишь \[{\mathbb E}({\varepsilon^4_i}) = const\].
На первом шаге строится исходная регрессия и сохраняются остатки. Затем строится состоятельная оценка дисперсии: \[ \hat{\sigma}^2 = \frac{1}{n} \cdot \sum_{i=1}^{n} {e^2_i} \]
Потом строится вспомогательная регрессия:
\[ \frac{e^2}{\hat{\sigma}^2} = \alpha_0 + \alpha_1 \cdot Z_1 + \ldots + \alpha_p \cdot Z_p + u \]
И рассчитывается тестовая статистика:
\[ \frac{RSS_{aux}}{2} \sim \chi^2_{p} \]
Тест Голдфелда - Квандта
\[ \begin{cases} H_0: \sigma^2_i = \sigma^2 \\ H_1: \sigma^2_i \propto X_i \\ \end{cases} \]
Этот тест предполагает нормальность остатков и является неасимптотическим.
Процедура:
Сначала все наблюдения сортируются по возрастанию абсолютного значения фактора, вызывающего гетероскедастичность.
Затем отсортированный ряд по фактору делится на 3 примерно равные части. Считаются гетероскедастичности по первой и третьей части ряда.
Строится F
- статистика:
\[ \frac{RSS_2}{RSS_1} \sim F_{r - k, r-k} \]
WLS как способ борьбы с гетероскедастичностью
Веса – оценка обратной дисперсии переменной, вызывающей гетероскедачность.
То есть оценим регрессию: \[ \frac{\ln{(pricemetr_i)}}{\hat{\sigma}_i} = \frac{\beta_0}{\hat{\sigma}_i} + \frac{\beta_{\ln{(kitsp)}} \cdot \ln{(kitsp_i)}}{\hat{\sigma}_i} + \frac{\beta_{\ln{(livesp)}} \cdot \ln{(livesp_i)}}{\hat{\sigma}_i} + \frac{\beta_{\ln{(dist)}} \cdot \ln{(dist_i)}}{\hat{\sigma}_i} + \frac{\beta_{\ln{(metrdist)}} \cdot \ln{(metrdist_i)}}{\hat{\sigma}_i} + \frac{\varepsilon_i}{\hat{\sigma}_i} \]
где r
- размер первой и третьей частей отсортированного ряда.