Если сходу нет идей, но хочется посмотреть вокруг, загляните в:
Открытые наборы данных на kaggle.com
Встроенные наборы данных в пакеты R: Ecdat
и fivethirtyeight
.
Если ничего не приглянулось, то в папке data
лежит набор данных friend_or_foe.txt
и описание к ним friend_or_foe.dat.txt
. Этот набор взят из Journal of Statistics Education
2.1. Сколько переменных в наборе данных? Сколько наблюдений?
2.2. Какого типа каждая из переменных? Не забудьте указать факторным переменным нужный тип :)
2.3. Постройте графики: - несколько гистограмм для качественных переменных; - несколько диаграмм рассеяния для количественных; - визуализируйте корреляционную матрицу количественных переменных.
3.1. Подберите оптимальное число кластеров
3.2. Изобразите полученные кластеры в осях главных компонент
3.3. Прокомментируйте построенный график
4.1. Какие коэффициенты значимы?
4.2. Сравните любую длинную и короткую модель на выбор
5.1. Перед решением задачи классификации разделите выборку на две части
5.2. По тестовой части выборки постройте прогноз и оцените его качество
5.3. Нарисуйте ROC-кривую
6.1. Ссылку на репозиторий с работой можно оставить в гугл-таблице с пожелалками
Ура :)