Входной файл: | Стандартный вход | Ограничение времени: | 1 сек | |
Выходной файл: | Стандартный выход | Ограничение памяти: | 512 Мб | |
Максимальный балл: | 10 |
Укажите вопрос, который будете отвечать на экзамене.
• Основные термины и задачи машинного обучения.
• Признаки, их виды и свойства. Переход между категориальными и численными признаками.
• Функция потерь. Оптимизация.
• Ошибки первого и второго рода. Метрики качества: accuracy, precision, recall, F1-score.
• Случайный поиск. Перебор по сетке.
• Проблемы работы с данными высокой размерности.
• Производная, частные производные, градиент. Методы оценки градиента.
• Градиентный спуск, проблема выбора шага.
• Стохастический градиентный спуск.
• Использование момента. Метод Нестерова.
• Метод отжига.
• Adagrad, Adadelta, RMSProp, Adam.
• AMSGrad, AdamW, YellowFin, AggMo, Quasi-Hyperbolic Momentum, Demon.
• Постановка задачи линейной регрессии. Вероятностная интерпретация.
• Метод наименьших квадратов. Алгебраическое и оптимизационное решения.
• Ковариация, корреляция.
• Коэффициент деретминации (критерий R2).
• Анализ остатков. Гомоскедастичность. Квартет Анскомба.
• Решение для неквадратных и плохо обусловненных матриц.
• Регуляризация LASSO, Ridge, Elastic.
• Обобщённые аддитивные модели (generalized additive models).
• Partial Least Squares
• Сигмоид.
• Метод наибольшего правдоподобия.
• Логистическая регрессия для меток − 1, 1.
• Обобщённые линейные модели (generalized linear models)
• Пробит-регрессия (probit regression)
• Многопараметрическая оптимизация.
• Доминация и оптимальность по Парето.
• Функция качества (fitness). Аппроксимация качества.
• Общая идея генетического алгоритма.
• Представление генома.
• Методы селекции: пропорционально качеству, универсальная выборка (stochastic universal sampling), с наследием (reward-based), турнир. Стратегия элитизма.
• Методы кроссовера. Двух и много-точечный, равномерный (по подмножествам), для перестановок.
• Мутация. Влияние на скорость обучения.
• Управление популяцией. Сегрегация, старение, распараллеливание.
• Генетическое программирование.
• Понятие энтропии, определение информации по Шеннону.
• Понятие дерева решений.
• Метрики: примеси Джини (Gini impurity), добавленная информация (information gain).
• Алгоритмы ID3, CART.
• Борьба с оверфиттингом: bagging, выборки признаков (random subspace method).
• Ансамбли, случайный лес (Random Forest).
• Деревья регрессии. Метрика вариации.
• Непрерывные признаки. Использование главных компонент вместо признаков.
• Сокращение дерева (pruning).
• Другие алгоритмы вывода правил: 1-rule, RIPPER, bayesian rule lists
• Комбинация с линейной регрессией (RuleFit).
• Понятие и свойства метрики. Ослабление требования к неравенству треугольника.
• Метрики L1, L2, Хемминга, Левенштейна, косинусное расстояние.
• Потеря точности нормы в высоких размерностях.
• Нормализация координат. Предварительная трансформация пространства признаков.
• Метрика Махаланобиса.
• Понятие центроида и представителя класса.
• Центроидные алгоритмы: k-means, k-medoid. Алгоритм Ллойда.
• Базовый алгоритм классификации методом 1-NN и k-NN. Преимущества и недостатки.
• Кросс-валидация методом "без одного" (leave one out).
• Определение границ, показатель пограничности (border ratio).
• Сжатие по данным. Понятия выброса, прототипа, усвоенной точки. Алгоритм Харта (Hart).
• Регрессия методом k-NN.
• Взвешенные соседи.
• Связь с градиентным спуском. Стохастическая формулировка, softmax.
• Метод соседних компонент (neighbour component analysis)
• Связь с выпуклой оптимизацией. Метод большого запаса (Large margin NN)
• Оптимизация классификатора, k-d деревья, Hierarchical Navigable Small World
• Хеши чувствительные к локальности, хеши сохраняющие локальность