Входной файл: | input.txt | Ограничение времени: | 1 сек | |
Выходной файл: | output.txt | Ограничение памяти: | 256 Мб | |
Максимальный балл: | 100000 |
Требуется обучить модель определения возрастной категории клиента банка.
Обучающая выборка содержит примерно 18.5 ⋅ 106 записей с транзакциями клиентов. Различных клиентов в обучающей выборке 21~000.
Данные транзакций доступны в файлеtrans_train.csv
. Данные содержат следующие столбцы.
сlient_id
— уникальный номер клиента;trans_date
— дата транзакции (представляет из себя просто номер дня в хронологическом порядке, начиная от заданной даты);small_group
— группа транзакций, характеризующих тип транзакции (например, продуктовые магазины, одежда, заправки, детские товары и т.п.);amount_rur
— сумма транзакции (для анонимизации данные суммы были трансформированы без потери структуры).
Целевая переменная для обучающего датасета находится в файле target_train.csv
. В нем содержится информация о Клиенте и метка возрастной группы, к которой он относится
client_id
— уникальный номер Клиента (соответствует client_id
из файла trans_train.csv
);bins
— метка возраста. В файлe test.csv
вам надо предсказать для указанных client_id соответствующую метку группы возраста.
Тестовая выборка доступна в файле trans_test.csv
. Содержит те же столбцы, что и trans_train.csv
Для каждого клиента из тестового набора необходимо предсказать возрастную группу к которой относится клиент. В систему необходимо предоставить для проверки CSV-файл с предсказаниями, он должен содержать две колонки:
client_id
— идентификатор клиента;bins
— возрастная группа;
Задача представляет из себя мультиклассовую классификацию (4 класса — от 0 до 3).
Качество решения считается как доля верно угаданных меток возраста по всем тестовым примерам — accuracy
.
Решение набирает количество баллов, вычисляемое по следующей формуле: Score = 105 ⋅ accuracy. accuracy — доля верно классифицированных новостей относительно всех новостей в тестовой выборке.
В систему необходимо предоставить для проверки CSV-файл с предсказаниями, он должен содержать две колонки:
client_id
— идентификатор клиента;bins
— возрастная группа;