Муниципальная олимпиада 2010 - Reinforcement learning. Bipedal Walker

Задача 03A. Reinforcement learning. Bipedal Walker ≡

задачи
видимые пробелы
простые формулы
широкий текст
редактор

Максимальный балл:	10		Ограничение времени:	1 сек
			Ограничение памяти:	512 Мб

Условие

Требуется обучить модель играть в Bipedal Walker.

Требования к среде

Среда должна принимать непрерывное пространство действий.
Требуется использовать обычную версию среды (hardcore=False).

Требования к реализации

Требуется реализовать Deep Deterministic Policy Gradient лосс.

Распределение баллов

Максимальное количество баллов за задачу — 10.

Реализация лосса и обвязки, до  + 4
Реализация модели, до  + 1
Обучение модели, до  + 3
Тестирование модели, до  + 2

Отправка решения

В качестве решения принимается файл с исходным кодом, например jupyter notebook. В систему требуется отправить ссылку на файл, размещённый в открытом доступе (Google Colab, Github, Google Drive и др.), указав среду разработки "Answer text". После отправки решение необходимо сдать преподавателю лично.

Базовый ноутбук можно скачать здесь.