Задача A. Прогноз трафика на базовых станциях

Входной файл:test.csv   Ограничение времени:1 сек
Выходной файл:submission.csv   Ограничение памяти:512 Мб
Максимальный балл:10000  

Условие

Операторы сотовой связи тратят значительные средства на модернизацию радио сети (до 10..30 млрд. руб/год). При этом строительство и модернизация базовых станций представляет собой сложный многоэтапный процесс, период которого может достигать 6..12 месяцев. Соответственно, решение о модернизации должно приниматься заранее, а не в момент возникновения проблемы с емкостью или покрытием.

Поэтому среди всех технических моделей, направленных на строительство и модернизацию сети, первостепенное значение имеет модель предсказания трафика на базовых станциях. Качественная модель позволит наиболее точно запланировать расширение сеть и достичь тем самым максимальной эффективности инвестиций.

Цель проекта — спрогнозировать объем трафика на каждом слое базовой станции на 12 мес вперед (на каждый месяц). Под слоем базовой станции понимается используемая технология (3G/4G) + диапазон (800..2600Мгц). Слой представляет собой категориальную переменную, которая указана в поле id2.

Вы можете использовать базовое решение в качестве начальной точки вашей работы.

Данные

Метрика качества

Точность предсказания оценивается с использованием модифицированной метрики SMAPE с областью значений [0, 1] (без умножения на 2):

SMAPE(y, ) = 1nni = 1|yi − i||yi + i + 10 − 15|


def smape(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred) / np.abs(y_true + y_pred + 1e-15))

Метрика вычисляется для каждого значения тройки time_idx, place_id, id2 из тестового набора данных.

Баллы за задачу начисляются по следующей формуле score = 100(1 − SMAPE(y_true, y_pred))

Формат входного файла

Наименование поляОписание поля
Time_idxНомер месяца
mbЦелевая переменная, которую необходимо предсказать
Place_idИдентификатор площадки
Id2Идентификатор слоя
Col_n00..col_n78Признаки

Часть признаков доступна только в обучающей выборке. Это связанно с тем, что часть полей представляет собой трафик и показатели на соседних с целевой базовой станцией, которые неизвестны при решении реальной задачи предсказания.

Формат выходного файла

Для отправки решения нужно:

  1. Создать в формате CSV с четырьмя полями time_idx, place_id, id2, mb  — предсказанные на тестовой выборке значения целевой переменной. Разделителем целой и дробной части в числах должна быть точка. Количество строк должно совпадать с количеством строк тестовой выборки. Все предсказанные значения должны быть неотрицательны.
  2. Загрузить файл на Google Drive или Yandex Disk, установить режим доступа "По ссылке".
  3. Получить ссылку на файл и отправить её в качестве решения, указав среду разработки Answer text.


0.080s 0.013s 15