Бесконечные возможности прогнозирования в науке о данных

Бесконечные перспективы прогнозирования в науке о данных

Откройте для себя множество методов прогнозирования в науке о данных с помощью практических примеров

Когда я впервые начал свой путь в науке о данных, моим первым заданием было прогнозирование. В то же время я только что закончил магистратуру по эконометрике. Мое первое впечатление о прогнозировании было довольно скучным и монотонным, так как я рассматривал все через призму временных рядов эконометрики, что включало построение графиков частичной автокорреляции и автокорреляции для ручного определения правильных параметров AR и MA для определения модели ARIMA. Однако теперь я понимаю, что это было неполным представлением о реальности статистического прогнозирования, так как я был новичком во многих отношениях.

После нескольких успешных проектов по прогнозированию я узнал, что область прогнозирования значительно отличается от классических задач регрессии и может быть рассмотрена различными способами вне статистических предсказаний. Это расширяет возможности моделирования при начале проекта.

Давайте рассмотрим множество вариантов прогнозирования через призму соревнования по прогнозированию продаж в продуктовом магазине Favorita на https://www.kaggle.com/c/favorita-grocery-sales-forecasting/overview. Здесь предлагается прогнозирование продаж для различных комбинаций магазинов и товаров за 16 дней вперед.

Обзор данных

Я не буду проводить подробный анализ, потому что мы будем использовать только подмножество обучающих данных. Данные следуют стандартной структуре, включающей идентификатор магазина, идентификатор товара, единицы продаж, день и флаг акции.

Источник: изображение от автора

Один ко многим

Первое изменение парадигмы, которое я испытал в своем пути к прогнозированию в предприятии по сравнению с теорией, заключается в следующем:

  • У нас нет времени на определение оптимальных параметров для каждого временного ряда через отдельную статистическую модель.
  • Розничные временные ряды подвержены влиянию различных экзогенных факторов, таких как акции, местные события, национальные события и цены. Однако большинство статистических моделей не учитывают эти факторы.
  • Необходимо рассмотреть много временных рядов, и рассмотрение каждого ряда отдельно практически невозможно и…