Задача 06A. Классификация табличных данных
Условие
Требуется решить задачу классификации табличных данных с использованием изученных моделей машинного обучения.
Требования к датасету
- Датасет должен иметь табличный формат (каждый пример задаётся списком признаков и значением целевой переменной).
- Датасет должен быть предназначен для задачи классификации.
- Датасет должен содержать не менее 5k строк.
- Перед использованием датасет должен быть согласован с преподавателем.
- Каждый датасет может быть использован не более чем двумя студентами в группе.
Модели машинного обучения
Требуется использовать следующие модели машинного обучения:
- OneRule,
- Логистическая регрессия,
- k ближайших соседей,
- Байесовский классификатор,
- Деревья решений,
- Бустинг,
- Метод опорных векторов,
- Многослойный перцептрон,
- Ансамбль.
Распределение баллов
Максимальное количество баллов за задачу — 10.
- Обучение моделей, до + 5
- Тестирование моделей: метрики качества (accuracy, f1, roc auc), график confusion matrix, roc auc, до + 3
- Исследование важности признаков и оценка их влияния на предсказание, до + 2
Отправка решения
В качестве решения принимается файл с исходным кодом, например jupyter notebook. В систему требуется отправить ссылку на файл, размещённый в открытом доступе (Google Colab, Github, Google Drive и др.), указав среду разработки "Answer text
". После отправки решение необходимо сдать преподавателю лично до начала зачётной недели.