Исследователи из Китая предлагают iTransformer Переосмысление архитектуры Трансформера для повышения прогнозирования временных рядов

Китайские исследователи представили iTransformer Более эффективный способ прогнозирования временных рядов с переосмысленной архитектурой Трансформера

Трансформер стал основной моделью, которая придерживается правил масштабирования после достижения больших успехов в области обработки естественного языка и компьютерного зрения. В прогнозировании временных рядов появляется Трансформер, который обладает высокой способностью извлекать многоуровневые представления из последовательностей и представлять парные отношения благодаря своим огромным успехам в других широких дисциплинах. Однако последнее время обоснованность прогнозов на основе Трансформера, которые обычно встраивают несколько вариаций одного и того же временного штампа в неразличимые каналы и акцентируют внимание на этих временных токенах для захвата временных отношений, подверглась критике.

Они замечают, что прогнозирование временных рядов многомерного времени может лучше подходить для текущей структуры прогнозистов на основе Трансформера. Левая панель рисунка 2 отмечает тот факт, что точки из одного временного шага, фактически отражающие радикально различные физические значения, полученные с помощью противоположных измерений, объединены в один токен с стертой многомерной корреляцией. Кроме того, из-за высокого локального рецептивного поля реального мира и несогласованных временных меток нескольких временных точек, токен, созданный одним временным шагом, может испытывать трудности в раскрытии полезной информации. Кроме того, во временном измерении, неподходяще используются механизмы внимания, неинвариантные к перестановкам, хотя порядок последовательности может оказывать значительное влияние на вариации рядов.

В результате Трансформер теряет способность описывать многомерные корреляции и захватывать важные представления о рядах, что ограничивает его применение и обобщающие возможности для различных временных рядов данных. В данном исследовании они используют обратную перспективу временных рядов и встраивают в один токен весь временной ряд каждой вариации отдельно, экстремальный пример патчинга, который увеличивает локальное рецептивное поле в ответ на иррациональность встраивания многомерных точек каждого временного шага в токен. Встроенный токен инвертирует и агрегирует глобальные представления рядов, которые могут быть лучше использованы развивающимися механизмами внимания для многомерной корреляции и децентрализации вариаций.

Рисунок 1: Производительность iTransformer. TimesNet используется для отчетности средних результатов (MSE).

Тем временем можно обучать нейронную сеть прямого распространения для приобретения достаточно обобщенных представлений для различных вариаций, которые кодируются из любых предшествующих рядов и затем декодируются для прогнозирования последующих рядов. В связи с приведенными выше причинами они считают, что Трансформер используется неправильно, а не является неэффективным для прогнозирования временных рядов. В данном исследовании они еще раз рассматривают архитектуру Трансформера и продвигают iTransformer в качестве основного фреймворка для прогнозирования временных рядов. В техническом плане они используют нейронную сеть прямого распространения для кодирования рядов, применяют внимание для многомерных корреляций и встраивают каждый временной ряд как токены вариаций. В плане экспериментов предложенный iTransformer неожиданно устраняет недостатки прогнозистов на основе Трансформера, одновременно достигая актуального производительного результата на бенчмарках реального прогнозирования на Рисунок 1.

Рисунок 2: Сравнение предлагаемого iTransformer (низ) и обычного Transformer (верх). В отличие от Transformer, который встраивает каждый временной шаг во временный токен, iTransformer независимо встраивает всю последовательность во вариативный токен. В результате сеть прямого распространения кодирует представления последовательности, а механизм внимания позволяет показывать многомерные корреляции.

Три вещи, которыми они внесли вклад, следующие:

• Исследователи из Университета Цинхуа предлагают iTransformer, который рассматривает независимые временные ряды как токены для захвата многомерных корреляций с помощью самовнимания. Он использует модули нормализации слоев и сеть прямого распространения для обучения лучших глобальных представлений серий для прогнозирования временных рядов.

• Они рефлектируют архитектуру Transformer и улучшают компетентные возможности компонентов базового Transformer на временные ряды, которые еще не до конца исследованы.

• На реальных прогностических показателях iTransformer последовательно получает результаты, которые являются передовыми на данный момент. Их тщательный анализ инвертированных модулей и архитектурных решений указывает на потенциальную траекторию развития предикторов, основанных на Transformer, в будущем.