Входной файл: | test.csv | Ограничение времени: | 1 сек | |
Выходной файл: | submission.csv | Ограничение памяти: | 512 Мб | |
Максимальный балл: | 10000 |
Операторы сотовой связи тратят значительные средства на модернизацию радио сети (до 10..30 млрд. руб/год). При этом строительство и модернизация базовых станций представляет собой сложный многоэтапный процесс, период которого может достигать 6..12 месяцев. Соответственно, решение о модернизации должно приниматься заранее, а не в момент возникновения проблемы с емкостью или покрытием.
Поэтому среди всех технических моделей, направленных на строительство и модернизацию сети, первостепенное значение имеет модель предсказания трафика на базовых станциях. Качественная модель позволит наиболее точно запланировать расширение сеть и достичь тем самым максимальной эффективности инвестиций.
Цель проекта — спрогнозировать объем трафика на каждом слое базовой станции на 12 мес вперед (на каждый месяц).
Под слоем базовой станции понимается используемая технология (3G/4G) + диапазон (800..2600Мгц).
Слой представляет собой категориальную переменную, которая указана в поле id2
.
Вы можете использовать базовое решение в качестве начальной точки вашей работы.
Точность предсказания оценивается с использованием модифицированной метрики SMAPE с областью значений [0,1][0,1] (без умножения на 2):
SMAPE(y,ˆy)=1nn∑i=1|yi−ˆyi||yi+ˆyi+10−15|SMAPE(y,^y)=1nn∑i=1|yi−^yi|∣∣yi+^yi+10−15∣∣
def smape(y_true, y_pred):
return np.mean(np.abs(y_true - y_pred) / np.abs(y_true + y_pred + 1e-15))
Метрика вычисляется для каждого значения тройки time_idx, place_id, id2
из тестового набора данных.
Баллы за задачу начисляются по следующей формуле score=100⋅(1−SMAPE(y_true,y_pred))score=100⋅(1−SMAPE(y_true,y_pred))
Наименование поля | Описание поля |
Time_idx | Номер месяца |
mb | Целевая переменная, которую необходимо предсказать |
Place_id | Идентификатор площадки |
Id2 | Идентификатор слоя |
Col_n00..col_n78 | Признаки |
Часть признаков доступна только в обучающей выборке. Это связанно с тем, что часть полей представляет собой трафик и показатели на соседних с целевой базовой станцией, которые неизвестны при решении реальной задачи предсказания.
Для отправки решения нужно:
CSV
с четырьмя полями time_idx, place_id, id2, mb
— предсказанные на тестовой выборке значения целевой переменной.
Разделителем целой и дробной части в числах должна быть точка.
Количество строк должно совпадать с количеством строк тестовой выборки.
Все предсказанные значения должны быть неотрицательны.Answer text
.