1. Выберите любой набор данных! Можно взять свой любимый :)

Если сходу нет идей, но хочется посмотреть вокруг, загляните в:

Если ничего не приглянулось, то в папке data лежит набор данных friend_or_foe.txt и описание к ним friend_or_foe.dat.txt. Этот набор взят из Journal of Statistics Education

  1. Проведите описательный анализ данных: (2 балла)

2.1. Сколько переменных в наборе данных? Сколько наблюдений?

2.2. Какого типа каждая из переменных? Не забудьте указать факторным переменным нужный тип :)

2.3. Постройте графики: - несколько гистограмм для качественных переменных; - несколько диаграмм рассеяния для количественных; - визуализируйте корреляционную матрицу количественных переменных.

  1. Проведите кластеризацию набора данных любым методом. (1 балл)

3.1. Подберите оптимальное число кластеров

3.2. Изобразите полученные кластеры в осях главных компонент

3.3. Прокомментируйте построенный график

  1. Оцените модель линейной регрессии. (1 балл)

4.1. Какие коэффициенты значимы?

4.2. Сравните любую длинную и короткую модель на выбор

  1. Решите задачу классификации любым способом. (1 балл)

5.1. Перед решением задачи классификации разделите выборку на две части

5.2. По тестовой части выборки постройте прогноз и оцените его качество

5.3. Нарисуйте ROC-кривую

  1. Загрузите работу в свой репозиторий. (1 балл)

6.1. Ссылку на репозиторий с работой можно оставить в гугл-таблице с пожелалками

Ура :)