Задача 03A. Image captioning
Условие
Требуется решить задачу генерации заголовков для изображений.
Требования к датасету
- Необходимо использовать датасет COCO.
- Во время обучения должно быть использовано не менее 25% тренировочных изображений за 2017 год.
Требования к моделям
- Модели для извлечения признаков изображений и генерации текста должны иметь архитектуру transformer.
- Для извлечения признаков рекомендуется использовать, например, DINOv2.
- Для генерации текста рекомендуется использовать, например, GPT-2.
- Предполагается использовать любую из архитектур, описанных в 1 и 2.
Распределение баллов
Максимальное количество баллов за задачу — 10.
- Работа с датасетом и feature extraction, до + 2
- Реализация и обучение модели, до + 3
- Тестирование модели, до + 3
- Бонус, до + 2
Отправка решения
В качестве решения принимается файл с исходным кодом, например jupyter notebook. В систему требуется отправить ссылку на файл, размещённый в открытом доступе (Google Colab, Github, Google Drive и др.), указав среду разработки "Answer text
". После отправки решение необходимо сдать преподавателю лично.
Базовый ноутбук можно скачать здесь.