Максимальный балл: | 10 |
Устный экзамен.
* Основные термины и задачи машинного обучения.
* Признаки, их виды и свойства.
* Функция потерь. Оптимизация.
* Ошибки первого и второго рода. Метрики качества: accuracy, precision, recall, F1-score.
* Случайный поиск. Перебор по сетке.
* Проблемы работы с данными высокой размерности.
* Производная, частные производные, градиент. Методы оценки градиента.
* Градиентный спуск, проблема выбора шага.
* Стохастический градиентный спуск.
* Использование момента. Метод Нестерова.
* Метод отжига.
* Adagrad, Adadelta, RMSProp, Adam.
* Постановка задачи линейной регрессии. Вероятностная интерпретация.
* Метод наименьших квадратов. Алгебраическое и оптимизационное решения.
* Ковариация, корреляция.
* Критерий R2.
* Анализ остатков. Гомоскедастичность. Квартет Анскомба.
* Решение для неквадратных и плохо обусловненных матриц.
* Регуляризация LASSO.
* Регуляризация Ridge, Elastic*.
* Обобщённые аддитивные модели (generalized additive models)*.
* Сигмоид.
* Метод наибольшего правдоподобия.
* Логистическая регрессия для меток − 1, 1.
* Обобщённые линейные модели (generalized linear models)*.
* Многопараметрическая оптимизация.
* Доминация и оптимальность по Парето.
* Функция качества (fitness). Аппроксимация качества.
* Общая идея генетического алгоритма.
* Представление генома.
* Методы селекции: пропорционально качеству, универсальная выборка (stochastic universal sampling), с наследием (reward-based), турнир. Стратегия элитизма.
* Методы кроссовера. Двух и много-точечный, равномерный (по подмножествам), для перестановок.
* Мутация. Влияние на скорость обучения.
* Управление популяцией. Сегрегация, старение, распараллеливание.
* Генетическое программирование*.
* Понятие энтропии, определение информации по Шеннону.
* Понятие дерева решений.
* Метрики: примеси Джини (Gini impurity), добавленная информация (information gain).
* Алгоритмы ID3, CART.
* Борьба с оверфиттингом: bagging, выборки признаков (random subspace method).
* Ансамбли, случайный лес (Random Forest).
* Деревья регрессии. Метрика вариации.
* Непрерывные признаки. Использование главных компонент вместо признаков.
* Сокращение дерева (pruning).
* Другие алгоритмы вывода правил: 1-rule, RIPPER, bayesian rule lists*.
* Комбинация с линейной регрессией (RuleFit)*.
* Понятие бустинга. Бустинг для бинарной классификации, регрессии.
* Градиентный бустинг.
* AdaBoost. Алгоритм Виолы-Джонса.
* Извлечение признаков. Признаки Хаара (Haar).
* Бустинг деревьев решений. XGBoost.
* CatBoost
* LPBoost, BrownBoost, ComBoost*.
* Понятие и свойства метрики. Ослабление требования к неравенству треугольника.
* Метрики L1, L2, Хемминга, Левенштейна, косинусное расстояние.
* Потеря точности нормы в высоких размерностях.
* Нормализация координат. Предварительная трансформация пространства признаков.
* Метрика Махаланобиса.
* Понятие центроида и представителя класса.
* Центроидные алгоритмы: k-means, k-medoid. Алгоритм Ллойда.
* Базовый алгоритм классификации методом 1-NN и k-NN. Преимущества и недостатки.
* Кросс-валидация методом "без одного" (leave one out).
* Определение границ, показатель пограничности (border ratio).
* Сжатие по данным. Понятия выброса, прототипа, усвоенной точки. Алгоритм Харта (Hart).
* Регрессия методом k-NN.
* Взвешенные соседи.
* Связь с градиентным спуском. Стохастическая формулировка, softmax.
* Метод соседних компонент (neighbour component analysis)*.
* Связь с выпуклой оптимизацией. Метод большого запаса (Large margin NN)*.
* Оптимизация классификатора, k-d деревья, Hierarchical Navigable Small World*.
* Хеши чувствительные к локальности, хеши сохраняющие локальность*.
* Задача обучения без учителя, применения при эксплораторном анализе.
* Иерархическая кластеризация: методы снизу вверх и сверху вниз.
* Алгоритмы, основанные на связности: функция схожести, компоненты связности и остовные деревья, критерии связности.
* Алгоритм BIRCH*.
* Алгоритмы, основанные на плотности: DBSCAN, OPTICS.
* Алгоритмы, основанные на распределении: сумма гауссиан.
* Нечёткая кластеризация, алгоритм c-means.
* Поиск моды (Mean-Shift)*.
* Внутренние оценки качества: leave-one-out, силуэт, индекс Дэвиса-Болдина (Davies-Bouldin), индекс Данна (Dunn).
* Внешние оценки качества.
Постановка задачи, причины и цели снижения размерности.
Выбор и извлечение признаков.
Подходы к выбору признаков: filtering, wrapping, embedding.
Расстояние между распределениями. Расстояние Кульбака-Лейблера. Взаимная информация.
Алгоритмы выбора признаков: на основе корреляции (CFS), взаимной информации, Relief.
Метод главных компонент (PCA).
Многомерное шкалирование (multidimensional scaling). Isomap.
Стохастическое вложение соседей с t-распределением (t-SNE).
Нелинейные обобщения метода главных компонент. Kernel PCA.*
Неотрицательное матричное разложение (NMF).*
Анализ независимых компонент (ICA).*