НТО по ВР 2024/2025 этап 2 - Reinforcement learning. MAZES

Задача 02B. Reinforcement learning. MAZES ≡

задачи
видимые пробелы
простые формулы
широкий текст
редактор

Максимальный балл:	10		Ограничение времени:	1 сек
			Ограничение памяти:	512 Мб

Условие

Требуется обучить модель, решающую лабиринт фиксированного размера, вида и позициями входа и выхода с использованием методов машинного обучения с подкреплением.

Требования к среде

Наблюдение представляет собой целочисленную матрицу со значениями от 0 до 4 включительно
- 0 — стена,
- 1 — коридор,
- 2 — посещённая клетка,
- 3 — последняя посещённая клетка,
- 4 — текущая клетка.

Генератор лабиринта можно скачать здесь.


from maze_generator import generate_mazes
mazes = generate_mazes(n=10000, maze_size=10)

Лабиринт должен иметь размер 21 на 21 (параметр maze_size=10 у генератора).
Вход всегда имеет индекс (1, 0), выход — (19, 20).
Должны быть доступны 4 действия
- 0 — шаг вниз,
- 1 — шаг вправо,
- 2 — шаг вверх,
- 3 — шаг влево.
Выполнение шага в стену не заканчивает игру, но оставляет игрока на месте.
Игра заканчивается при достижении выхода или максимального количества итераций.
Реализация среды должна удовлетворять одному из следующих условий
- Поддерживать выполнение на графе Tensorflow (например, использоваться при итерации по tf.data.Dataset без использования tf.py_function),
- Являться слоем keras.layers.Layer,
- Являться модулем torch.nn.Module с возможностью компиляции с torch.compile.

Требования к обучению

Модель должна иметь свёрточную архитектуру или архитектуру трансформер.
Требуется реализовать самостоятельно один из методов оптимизации политики: введение (REINFORCE), Vanilla Policy Gradient (REINFORCE but a bit better), Trust Region Policy, Proximal Policy.
Требуется обучить три уровня развития модели
- Модель блуждает по лабиринту (посещает новые клетки, без штрафа за длину пути);
- Модель стремится к выходу, пытаясь найти кратчайший путь (штраф за длину пути);
- Модель идёт строго по кратчайшему пути (среде известен кратчайший путь, штраф за посещение клеток не принадлежащих этому пути).

Распределение баллов

Максимальное количество баллов за задачу — 10.

Реализация среды, до  + 3
Реализация модели и обучение, до  + 6
Демонстрация взаимодействия обученной модели со средой (с картинками), до  + 1

Задача допускает дополнительные баллы за выполнение следующих пунктов.

Отображение промежуточных выходов модели (attention scores для трансформера), пример, до  + 1

Умение находить (кратчайший) путь в странных лабиринтах (но не обязательно именно таких), до  + 1

Отправка решения

В качестве решения принимается файл с исходным кодом, например jupyter notebook. В систему требуется отправить ссылку на файл, размещённый в открытом доступе (Google Colab, Github, Google Drive и др.), указав среду разработки "Answer text". После отправки решение необходимо сдать преподавателю лично.