Исследователи из UCLA и CMU представляют Stormer масштабируемые нейронные сети трансформации для умелого и надежного среднесрочного прогнозирования погоды.

Ученые из UCLA и CMU представляют Stormer - масштабируемые нейронные сети трансформации для точного и надежного среднесрочного прогноза погоды.

Одна из основных проблем, с которыми сталкиваются сегодня наука и общество, – прогноз погоды. Точный прогноз погоды играет решающую роль в помощи людям планировать и восстанавливаться после природных катастроф и экстремальных погодных явлений, а также помогает исследователям лучше понять окружающую среду в свете возрастающих опасений из-за изменения климата. Численные модели погоды (NWP) исторически были основой работы атмосферных ученых. Эти модели используют системы дифференциальных уравнений, которые объясняют термодинамику и поток жидкости и могут интегрироваться во времени для получения прогнозов на будущее. У NWP моделей есть несколько недостатков, таких как ошибки параметризации значимых мелкомасштабных физических явлений, таких как радиация и физика облаков.

Из-за сложности интеграции большой системы дифференциальных уравнений численные подходы также обладают значительными вычислительными затратами, особенно при моделировании с точностью по пространству и времени. Более того, поскольку модели зависят от знаний климатологов для улучшения уравнений, параметризаций и алгоритмов, точность прогнозов NWP остается примерно одинаковой с увеличением данных. Все больше людей интересуются методами прогнозирования погоды, основанными на данных и глубоком обучении, чтобы преодолеть проблемы с NWP моделями. С использованием исторических данных, например, набора данных ERA5 повторного анализа, глубокие нейронные сети обучаются прогнозировать будущие погодные условия. Это основная идея техники. В отличие от традиционных NWP моделей, которым требуется несколько часов для создания прогнозов, они могут сделать это за секунды после обучения.

Первые попытки в этой области стремились использовать традиционные архитектуры видения, подобные ResNet и UNet, для прогнозирования погоды, так как метеорологические данные и естественные изображения имеют сравнимую пространственную структуру. Однако их результаты были хуже, чем у численных моделей. Однако благодаря улучшенным модельным разработкам, рецептам обучения и увеличению данных и вычислительной мощности недавно были достигнуты значительные прогрессы. Первая модель, превзошедшая операционную модель IFS, – Pangu-Weather, модель 3D-специфического преобразователя Земли, обученная на данных 0.25∘ (721×1440 сеток). Вскоре после этого графовая нейронная сеть, разработанная Кейслером, была масштабирована для данных 0.25∘ с помощью GraphCast, который продемонстрировал преимущества перед Pangu-Weather.

Несмотря на то, что точность прогноза значительна, текущие подходы иногда используют сложные и высокоспециализированные топологии нейронных сетей с минимальными или без абляционных экспериментов, что затрудняет точное определение элементов, ответственных за их эффективность. Например, неизвестно, насколько месаг-пассаж в нескольких сетках способствует его эффективности и какие преимущества имеет 3D-специфический преобразователь Земли перед обычным преобразователем. Для дальнейшего развития в этой сфере потребуется лучше понимание этих современных методологий и, желательно, упрощение. Объединенная структура также сделает процесс создания базовых моделей для климата и погоды более простым, превышая прогнозы погоды. В этом исследовании показано, что простая конструкция может превзойти передовые техники при правильной формуле обучения.

Исследователи из UCLA, CMU, Национальной лаборатории Аргонн и Университета Пеннсильвании представляют Stormer, простую модель трансформера, которой требуется незначительная модификация обычного основного блока трансформера, чтобы обеспечить передовые показатели прогнозирования погоды. Начиная с обычной архитектуры видеотрансформера (ViT), исследовательская группа провела глубокие исследования абляции, чтобы определить три основных элемента, влияющих на производительность модели: модель состоит из трех компонентов: (1) погодно-специфического слоя вставки, который моделирует взаимодействия между атмосферными переменными, чтобы преобразовать входные данные в последовательность токенов; (2) целевая функция прогнозирования динамики случайной природы, которая обучает модель прогнозировать динамику погоды в случайные интервалы; (3) потеря, взвешиваемая давлением, которая приближает плотность на каждом уровне давления, взвешивая переменные на разных уровнях давления в функции потерь. Их предложенная целевая функция прогнозирования динамики случайной природы с помощью различных комбинаций интервалов, на которых обучалась модель, позволяет одной модели генерировать множество прогнозов для заданного времени во время прогнозирования.

Например, путем распределения прогнозов на 6 часов 12 раз или предсказаний на 12 часов 6 раз, можно получить прогноз на 3 дня. Значительные улучшения производительности получаются путем комбинирования этих прогнозов, особенно для длительного прогнозного времени. Исследовательская группа оценивает масштабируемые преобразователи для прогнозирования погоды (Stormer), их предложенный подход, с помощью WeatherBench 2, популярного бенчмарка для прогнозирования погоды на основе данных. Результаты тестирования показывают, что Stormer превосходит современную прогностическую систему после 7 дней, достигая конкурентоспособной точности прогнозирования важных атмосферных переменных на промежутке от 1 до 7 дней. Большое внимание заслуживает тот факт, что Stormer превосходит базовые показатели производительности, обучаясь на данных с разрешением почти в 5 раз меньше и заказами меньше часов GPU. Наконец, их исследование масштабирования демонстрирует возможность дополнительных улучшений, доказывая, что производительность Stormer непрерывно улучшается с увеличением мощности модели и размера данных.