Случайные заметки

Преподавание статистики

Курс статистики вшэ для экономистов: теория вероятностей (1 семестр) + математическая статистика (1 семестр). Идеи разного порядка важности — пусть мир будет лучше :)

Идейки как сделать курс лучше

  1. В рассказе про условные вероятности вводить слова «чувствительность» и «специфичность».

  2. Вводить оценку сложных вероятностей и ожиданий с помощью симуляций. Тут же появляется впервые понятие оценки и обозначение параметра с крышкой.

  3. Выводить экспоненциальную плотность через предпосылку об отсутствии памяти.

  4. Долой t-тест с предпосылкой равных дисперсий. Лучше заменить его на тест Уэлча. Доказывается поправка степеней свободы несложно, а на уровне рецепта совсем без разницы по времени.

  5. Долой интервалы и тесты при известных дисперсиях вообще. Или хотя бы резко уменьшить внимание на них. Это чисто учебный промежуточный момент, а наши студенты спрашивают при проверке гипотез, а дисперсия тут известна? Да никогда она не известна!

  6. Долой доверительный интервал для дисперсии. И проверку гипотезы о дисперсии. Думаю, лучше практиковать хи-квадрат распределение на LR/LM/W.

  7. Больше байесовского подхода. Сейчас с вероятностным программированием это полноценная альтернатива классическому подходу.

  8. Больше баек, легенд, парадоксов, грешных и хороших практик: https://en.wikipedia.org/wiki/Simpson%27s_paradox https://en.wikipedia.org/wiki/Parrondo%27s_paradox https://allendowney.blogspot.com/2015/08/the-inspection-paradox-is-everywhere.html https://en.wikipedia.org/wiki/Berkson%27s_paradox

http://www.dgps.de/fachgruppen/methoden/mpr-online/issue16/art1/haller.pdf

https://archive.org/details/DTIC_ADA091073/page/n51/mode/2up https://en.wikipedia.org/wiki/Sleeping_Beauty_problem https://en.wikipedia.org/wiki/Lindley%27s_paradox https://en.wikipedia.org/wiki/Survivorship_bias https://stats.stackexchange.com/questions/4551 https://stats.stackexchange.com/questions/23779

Хорошо бы добавить в виде задачек, но хотя бы на уровне прочитать-посмотреть.

  1. Тройка LR-LM-Wald как альтернатива списку классических гипотез.

6.1. В LM хотелось бы на простом примере гипотезы о среднем вывести аналог nR^2, и тогда была бы лишняя связь с курсом эконометрики.

6.2. AIC и BIC хороши тем, что задают альтернативу дихотомичному H0 отвергается-не отвергается, и можно сравнивать кучу моделей. Хорошая статья: http://web.ipac.caltech.edu/staff/fmasci/home/astro_refs/AIC_in_modelselection.pdf Студенты думают, что есть истина и мы её с некоторой вероятностью установим. А AIC и BIC прекрасны тем, что сразу говорят, что истину мы не установим, а найдём только похожую на неё модель. И то, не факт :) Но это другой взгляд на моделирование и он очень расширяет кругозор! Более того, AIC и BIC дадут в курсе логическое применение энтропии и дивергенции Кульбака-Лейблера между распределениями.

6.3. Хороший источник про ANOVA (с объяснением, почему не всю анову можно заменить на простую регрессию) http://www.stat.columbia.edu/~gelman/research/published/AOS259.pdf

  1. Список статей, рекомендованных для чтения. В частности, туда можно включить и байки, и какие-то короткие но классные штуки типа The Earth is round (p < 0.05) http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.188.597

  2. Мотивация через АБ-тесты?

  3. Рассказать все слова с уберовской картинки. https://eng.uber.com/xp/

  4. Включать энтропию и дивергенцию Кульбака-Лейблера на равных правах как и остальные характеристики случайных величин. Подсчёт ничем не сложнее дисперсии или корреляции. А выходы идут от них и на максимальное правдоподобие, AIC, BIC и на машинное обучение. Это связь с другими курсами.

  5. Вводить многомерное нормальное распределение через аксиоматику Хершела-Максвелла, а не через плотность. Это очень естественно! Многие доказательства упрощаются (в статистике их мало, но в метрике все теоремы про F, t обретают естественную аргументацию).

  6. За бутстрэп https://arxiv.org/pdf/1411.5279.pdf https://ocw.mit.edu/courses/mathematics/18-05-introduction-to-probability-and-statistics-spring-2014/readings/MIT18_05S14_Reading24.pdf https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4784504/ https://stats.stackexchange.com/questions/355781/is-it-true-that-the-percentile-bootstrap-should-never-be-used

  7. Множественное тестирование: поправки Бонферонни, Холма-Бонферонни с доказательством, Бенджамини-Хохберга на уровне алгоритма + симуляции.

  8. Некоторые студенты активно используют карточки анки для запоминания информации. Каждая карточка поделена на две стороны, и глядя на одну можно вспоминать другую. Можно довести до ума и пусть в метро или парке учат с мобильного вероятности :)

А. В задачах на нормальное распределение добавить что-то из модели Блэка-Шоулза. Без доказательства, в духе “В модели Блэка-Шоулза предполагается, что цена акции в момент t описывается..” и далее что-то про ожидание-дисперсию-вероятность спросить.
https://www.cambridge.org/sa/files/5213/6680/0138/BSM-solutions.pdf Б. Можно добавить слова ValueAtRisk, весь @VaR это по хорошему всего лишь квантили какого-то распределения. https://en.wikipedia.org/wiki/Value_at_risk В. Можно в качестве одного из дз-кр предложить задачи экзамена английских актуариев: https://www.actuaries.org.uk/studying/prepare-your-exams/past-exam-papers-and-examiners-reports В духе “вы примерно на 80% можете сдать один из экзаменов на сертифицированного английского актуария после нашего курса”. Г. Мотивационное :) https://www.ted.com/talks?topics%5B%5D=statistics