5 Доказательство свойств и оценка моделей. {#05_models_evaluation}
конспект: Артём Калинин, Кирилл Улыбин
дата: 9 сентября 2016
5.0.1 Пример из домашки
Сначала разобрали пример из домашки прошлого семинара:
Искали
\(cov(\hat{y}, \hat{\epsilon})=?\)
\(cov(\hat{y}, \hat{\epsilon})= cov(X\hat{\beta}, y - \hat{y})=cov(y-\hat{y}, X\hat{\beta})'=cov((I-\underbrace{X(X'X)^{-1}X'}_H)y , X(X'X)^{-1}X'y))'=\)
\(=((I-H)cov(y, y)(H)')'=(\sigma^{2}(IH-H))'=(\sigma^{2}(H-H))'=0\)
Интуитивное объяснение результата - предсказания не должны зависеть от ошибок. Например, если бы предсказания положительно зависели от ошибок, можно было бы сделать поправку в предсказании на известную величину ошибки.
Вспомогательно:
H - матрица-шляпница! Почему?
H*(любой вектор)=(его проекция)
\(Hy=\hat{y}\)
\(H'=H\)
\(H^{2}=X(X'X)^{-1}\underbrace{X'X(X'X)^{-1}}_IX'=H\)
5.0.2 Упражнение 1
Даны модель А: \(y_i=\beta x_i + \epsilon_i\), модель B: \(y_i = \beta_1+\beta_2 x_i + \epsilon_i\)
\(\sum_{i=1}^n x_i=50\);\(\sum_{i=1}^n x_iy_i=-50\); \(\sum_{i=1}^n x_i^2=2000\); \(\sum_{i=1}^n y_i=20\); \(\sum_{i=1}^n y_i^2=500\); \(n=100\)
Найти для модели B (для модели A - дома):
\(1)X-?\) \(2)X'X-?\) \(3)\hat{\beta}-?\) \(4)Var(\hat{\beta})-?\) \(5)X'y-?\)
Решение
1)\(X\) = \(\left( \begin{matrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_n\\ \end{matrix} \right)\)
2)\(X'\) = \(\left( \begin{matrix} 1 & 1 & \dots & 1 \\ x_1 & x_2 & \dots & x_n \\ \end{matrix} \right)\)
\((X'X)\) = \(\left( \begin{matrix} 1 & 1 & \dots & 1 \\ x_1 & x_2 & \dots & x_n \\ \end{matrix} \right)\) \(\left( \begin{matrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_n\\ \end{matrix} \right)\)=\(\left( \begin{matrix} n & x_1+x_2+...x_n &\\ x_1+x_2+...+x_n & x_1^2+x_2^2+...+x_n^2 &\\ \end{matrix} \right)\)=\(\left( \begin{matrix} 100 & 50 &\\ 50 & 2000 &\\ \end{matrix} \right)\)
3)\(X'y\)=\(\left( \begin{matrix} 1 & \dots & 1 &\\ x_1 & \dots & x_n &\\ \end{matrix} \right)\) \(\left( \begin{matrix} y_1&\\ \vdots&\\ y_n&\\ \end{matrix} \right)\)=\(\left( \begin{matrix} \sum_{i=1}^n y_i &\\ \sum_{i=1}^n x_iy_i &\\ \end{matrix} \right)\)=\(\left( \begin{matrix} 20 \\ -50 \\ \end{matrix} \right)\)
4)\(\hat{\beta}=(X'X)^{-1}X'y=\left( \begin{matrix} 100 & 50\\ 50 & 2000\\ \end{matrix} \right)^{-1}=\left( \begin{matrix} 20 \\ -50 \\ \end{matrix} \right)=\frac{1}{197500}\left( \begin{matrix} 2000 & -50\\ -50 & 100\\ \end{matrix} \right)\left( \begin{matrix} 20 \\ -50 \\ \end{matrix} \right)=\frac{1}{197500}\left( \begin{matrix} 42500 \\ -51000 \\ \end{matrix} \right)\)
5)\(Var(\hat{\beta})=\sigma^2(X'X)^{-1}=\sigma^2*\frac{1}{197500}\left(\begin{matrix} 2000 & -50 \\ -50 & 100\\ \end{matrix} \right)\)
5.0.3 Упражнение 2
Доказать, что \(Var(Ay)=AVar(y)A'\)
Напомним, что \(Var(z) = \left(\begin{matrix} var(z_1) & cov(z1,z2) & \dots & cov(z_1,z_n) \\ \vdots & \vdots & \vdots & \vdots \\ cov(z_n, z_1) &\dots &\dots & var(z_n)\\ \end{matrix} \right)\)
Сначала докажем вспомогательные утверждения:
а)\(E(Ay)=AE(y)\)
б)\(E(zB)=E(z)B\)
в)\(Var(z)=E(zz') - E(z)E(z')\)
а)\(E(Ay)=AE(y)\)
Левая часть: \(E(Ay)=Left_{ij} = E(\sum_{k=1}^s a_{ik}y_{kj})=\sum_{k=1}^s a_{ik}E(y_{kj})\)
Правая часть: \(AE(y) = Right_{ij}=\sum_{k=1}^s a_{ik}E(y_{kj})\)
б)\(E(zB)=E(z)B\); Док-во такое же как в (а)
в)\(Var(z)=E(zz') - E(z)E(z')\)
Левая часть: \(Var(z) = Left_{ij}=cov(z_i,z_j)\)
Правая часть: \(Right_{ij}=E(zz')_{ij} - (E(z)E(z'))_{ij}=E(z_iz_j)-E(z_i)E(z_j)=cov(z_i,z_j)\)
\(E(zz')= \left( \begin{matrix} E(z_1^2) & E(z_1z_2) & \dots & E(z_1z_n) \\ \vdots & \vdots & \vdots & \vdots\\ E(z_nz_1) & \dots & \dots & E(z_n^2)\\ \end{matrix} \right)\)
\(E(z)E(z') = \left( \begin{matrix} E(z_1)E(z_1) & \dots & E(z_1)E(z_n) \\ \vdots & \vdots & \vdots \\ E(z_n)E(z_1) & \dots & E(z_n)E(z_n)\\ \end{matrix} \right)\)
Теперь вернемся к доказательству \(Var(Ay)=AVar(y)A'\).
\(Var(Ay) = E(Ay(Ay)')-E(Ay)E((Ay)')=E(Ayy'A')-E(Ay)E(y'A')=AE(yy')A'-AE(y)E(y')A'=A(\underbrace{E(yy')-E(y)E(y'))}_{Var(y)}A'=AVar(y)A'\)
5.0.4 Упражнение 3
Дано \(X_{n\times1}\), \(A_{n\times n}\)
\(f(A)_{1\times 1}=X'_{1\times n}A_{n\times n}X_{n\times 1}\)
Найти \(\frac{\partial f}{\partial A}\), т.е. скаляр дифференцируем по каждому элементу матрицы А.
Решение:
\(\frac{\partial f}{\partial A}_{ij}=\frac{\partial f}{\partial a_{ij}}\)
\(X'A= \left( \begin{matrix} x_1 & x_2 &\dots & x_n \\ \end{matrix} \right) \left( \begin{matrix} a_{11} & a_{12}&\dots & a_{1n} \\ \vdots & \vdots & \vdots & \vdots\\ a_{n1} & \dots &\dots & a_{nn} \end{matrix} \right) = \left( \begin{matrix} \sum_{i=1}^n x_ia_{i1} & \sum_{i=1}^n x_ia_{i2}& \dots & \sum_{i=1}^n x_ia_{in} \\ \end{matrix} \right)_{1\times n}\)
\(X'AX = \left( \begin{matrix} \sum_{i=1}^n x_ia_{i1} & \sum_{i=1}^n x_ia_{i2}& \dots & \sum_{i=1}^n x_ia_{in} \\ \end{matrix} \right)\left( \begin{matrix} x_1 \\ x_2\\ \vdots\\ x_n\\ \end{matrix} \right)= \sum_{j=1}^n (x_j \sum_{i=1}^n x_i a_{ij})\)
Тогда можно переписать в виде:
\(f(A)= \sum_{j=1}^n (x_j \sum_{i=1}^n x_i a_{ij})= \sum_{i=1, j=1}^n x_ix_ja_{ij}\)
То есть \(\frac{\partial f}{\partial A_{ij}}=x_ix_j\)
\(\frac{\partial f}{\partial A}= \left( \begin{matrix} x_1^2 & x_1x_2 & \dots & x_1x_n\\ x_2x_1& x_2^2 & \dots & x_2x_n \\ \vdots & \vdots & \vdots & \vdots\\ x_nx_1& \dots & \dots & x_n^2\\ \end{matrix} \right)=XX'\)
5.0.5 Упражнение 4. Оценим модель с помощью ML
Пусть истинная зависимость \(y = X\beta +\varepsilon\), причем \(\varepsilon \sim N(0;\sigma^{2}I)\)
Всего n наблюдений и k регрессоров
Найти:
а) \(\hat{\beta_{ML}}\), \(\hat{\sigma^{2}_{ML}}\)
б) \(E(\hat{\beta_{ML}})\), \(E(\hat{\sigma}^{2}_{ML})\)
с) \(Var(\hat{\beta_{ML}})\), \(Var(\hat{\sigma}^{2}_{ML})\)
Решение
а) Найдем ML оценки
X и y известны, оцениваем \(\beta = \left( \begin{matrix} \beta_1 \\ \vdots \\ \beta_k \end{matrix} \right)\) и \(\sigma^{2}\)
Из \(\varepsilon \sim N(0;\sigma^{2}I))\) и \(y = X\beta +\varepsilon\) следует, что \(y \sim N(X\beta;\sigma^{2}I)\)
Запишем формулу плотности многомерного нормального распределения:
\(p(y)=\frac{1}{\sqrt{(2\pi)^n} \sqrt{det(\sigma^{2}I)}}e^{-\frac{1}{2}(y-X\beta)^{'}(\sigma^{2}I)^{-1}(y-X\beta)}\)
Для удобства логарифмируем и получим задачу максимизации фукции правдоподобия:
\(Q=ln(p(y))=-\frac{n}{2}ln(2\pi)-\frac{1}{2}ln(det(\sigma^{2}I))-\frac{1}{2}(y-X\beta)^{'}(\sigma^{2}I)^{-1}(y-X\beta) \rightarrow \max\limits_{\beta, \sigma^{2}}\)
Заметим, что первое слагаемое не влияет на решение задачи максимизации, а \(det(\sigma^{2}I)=\sigma^{2n}\)
\(\frac{\partial Q}{\partial \beta}\): \(Q=-\frac{1}{2\sigma^{2}}(y^{'}-X^{'}\beta^{'})(y-X\beta)=-\frac{1}{2\sigma^{2}}(y^{'}y-\beta^{'}X^{'}y-y^{'}X\beta+\beta^{'}X^{'}X\beta)\)
Заметим: \(y^{'}X\beta\) - скаляр, причем \((y^{'}X\beta)^{'}=\beta^{'}X^{'}y\), тогда можно записать в виде:
\(Q=-\frac{1}{2\sigma^{2}}(y^{'}y-2y^{'}X\beta+\beta^{'}X^{'}X\beta)\)
\(\frac{\partial Q}{\partial \beta}=-\frac{1}{2\sigma^{2}}((-2y^{'}X)^{'}+(X^{'}X+(X^{'}X)^{-1})\hat{\beta})=0\)
\(X^{'}X\hat{\beta}=X^{'}y\)
\(\hat{\beta}=(X^{'}X)^{-1}X^{'}y\)
\(\frac{\partial Q}{\partial \sigma^{2}}\): \(Q=-\frac{n}{2}ln(\sigma^{2})-\frac{1}{2\sigma^{2}}(y-X\beta)^{'}(y-X\beta)\)
\(\frac{\partial Q}{\partial \sigma^{2}}=\frac{n}{\hat{\sigma}^{2}}-\frac{(y-X\hat{\beta})^{'}(y-X\hat{\beta})}{\hat{\sigma}^{2}}\)
\(\hat{\sigma}^{2}=\frac{(y-X\hat{\beta})^{'}(y-X\hat{\beta})}{n}\)
б) По свойству ML оценок: \(E(\hat{\beta})=\beta\), \(E(\hat{\sigma}^{2})=\sigma^{2}\)
с) Чтобы найти \(Var(\hat{\beta_{ML}})\), \(Var(\hat{\sigma}^{2}_{ML})\) посчитаем вторые производные:
\(\frac{\partial^2 Q}{\partial \beta^2}=-\frac{X^{'}X}{\sigma^{2}}\)
\(\frac{\partial^2 Q}{\partial (\sigma^{2})^2}=\frac{n}{2(\sigma^{2})^2}-\frac{(y-X\hat{\beta})^{'}(y-X\hat{\beta})}{(\sigma^{2})^3}\)
\(\frac{\partial^2 Q}{\partial \beta \partial \sigma^{2}}=-\frac{X^{'}(y-X\hat{\beta})}{(\sigma^{2})^{2}}=-\frac{X^{'}(y-(X^{'}X)^{-1}X^{'}Xy)}{(\sigma^{2})^{2}}=0\)
тогда Var \(\left( \begin{matrix} \hat{\beta} \\ \hat{\sigma}^2 \\ \end{matrix} \right) = \left( \begin{matrix} -\frac{1}{n}\frac{\partial^2 Q}{\partial \beta^2} & 0 \\ 0 & -\frac{1}{n}\frac{\partial^2 Q}{\partial (\sigma^2)^2}\\ \end{matrix} \right)^{-1} = \left( \begin{matrix} \frac{n\sigma^2}{X'X} & 0 \\ 0 & 2(\sigma^2)^2\\ \end{matrix} \right)\)
5.0.6 ДЗ
- В упражнении 1 сделать те же пункты для модели А
- Даны \(A_{r\times s}\), \(B_{s\times r}\)
Записать через эти матрицы ( и их преобразования) сумму: \(\sum_{i=1, j=1}^n a_{ij}b_{ij}=?\)
5.0.7 Ссылки
В лекции 5 Бостонского университета подробнее изложено про матрицу-шляпницу и её свойста
Да и в целом курс Бостонского университета хорош :)