Задача 9. Устный экзамен

Входной файл:Стандартный вход   Ограничение времени:1 сек
Выходной файл:Стандартный выход   Ограничение памяти:512 Мб
Максимальный балл:10  

Условие

Вопрос на устном экзамене

Укажите вопрос, который будете отвечать на экзамене.

1. Введение
• Основные термины и задачи машинного обучения.
• Признаки, их виды и свойства. Переход между категориальными и численными признаками.
• Функция потерь. Оптимизация.
• Ошибки первого и второго рода. Метрики качества: accuracy, precision, recall, F1-score.
• Случайный поиск. Перебор по сетке.
• Проблемы работы с данными высокой размерности.

2. Градиентный спуск (gradient descent)
• Производная, частные производные, градиент. Методы оценки градиента.
• Градиентный спуск, проблема выбора шага.
• Стохастический градиентный спуск.
• Использование момента. Метод Нестерова.
• Метод отжига.
• Adagrad, Adadelta, RMSProp, Adam.
AMSGrad, AdamW, YellowFin, AggMo, Quasi-Hyperbolic Momentum, Demon.

3. Линейная регрессия (linear regression)
• Постановка задачи линейной регрессии. Вероятностная интерпретация.
• Метод наименьших квадратов. Алгебраическое и оптимизационное решения.
• Ковариация, корреляция.
• Коэффициент деретминации (критерий R2).
• Анализ остатков. Гомоскедастичность. Квартет Анскомба.
• Решение для неквадратных и плохо обусловненных матриц.
• Регуляризация LASSO, Ridge, Elastic.
Обобщённые аддитивные модели (generalized additive models).
Partial Least Squares

4. Логистическая регрессия (logistic regression)
• Сигмоид.
• Метод наибольшего правдоподобия.
• Логистическая регрессия для меток  − 1, 1.
• Обобщённые линейные модели (generalized linear models)
Пробит-регрессия (probit regression)

5. Глобальная оптимизация. Генетический алгоритм (genetic algorithm)
• Многопараметрическая оптимизация.
• Доминация и оптимальность по Парето.
• Функция качества (fitness). Аппроксимация качества.
• Общая идея генетического алгоритма.
• Представление генома.
• Методы селекции: пропорционально качеству, универсальная выборка (stochastic universal sampling), с наследием (reward-based), турнир. Стратегия элитизма.
• Методы кроссовера. Двух и много-точечный, равномерный (по подмножествам), для перестановок.
• Мутация. Влияние на скорость обучения.
• Управление популяцией. Сегрегация, старение, распараллеливание.
Генетическое программирование.

6. Деревья решений (decision trees)
• Понятие энтропии, определение информации по Шеннону.
• Понятие дерева решений.
• Метрики: примеси Джини (Gini impurity), добавленная информация (information gain).
• Алгоритмы ID3, CART.
• Борьба с оверфиттингом: bagging, выборки признаков (random subspace method).
• Ансамбли, случайный лес (Random Forest).
• Деревья регрессии. Метрика вариации.
• Непрерывные признаки. Использование главных компонент вместо признаков.
• Сокращение дерева (pruning).
Другие алгоритмы вывода правил: 1-rule, RIPPER, bayesian rule lists
Комбинация с линейной регрессией (RuleFit).

7. Метрики и метрическая кластеризация (metrics)
• Понятие и свойства метрики. Ослабление требования к неравенству треугольника.
• Метрики L1, L2, Хемминга, Левенштейна, косинусное расстояние.
• Потеря точности нормы в высоких размерностях.
• Нормализация координат. Предварительная трансформация пространства признаков.
• Метрика Махаланобиса.
• Понятие центроида и представителя класса.
• Центроидные алгоритмы: k-means, k-medoid. Алгоритм Ллойда.

8. Метод ближайших соседей (k-NN)
• Базовый алгоритм классификации методом 1-NN и k-NN. Преимущества и недостатки.
• Кросс-валидация методом "без одного" (leave one out).
• Определение границ, показатель пограничности (border ratio).
• Сжатие по данным. Понятия выброса, прототипа, усвоенной точки. Алгоритм Харта (Hart).
• Регрессия методом k-NN.
• Взвешенные соседи.
• Связь с градиентным спуском. Стохастическая формулировка, softmax.
Метод соседних компонент (neighbour component analysis)
Связь с выпуклой оптимизацией. Метод большого запаса (Large margin NN)
Оптимизация классификатора, k-d деревья, Hierarchical Navigable Small World
Хеши чувствительные к локальности, хеши сохраняющие локальность

Ссылка на подготовленные материалы (Github, Google Drive и др.). Шпаргалка для ответа на выбранный вопрос.


0.133s 0.053s 15