Основанный на данных обнаружение уравнений

Открытие уравнений на основе данных

Фото от ThisisEngineering RAEng на Unsplash

Описание природы с помощью аналитических выражений, проверенных через эксперименты, стало отличительной чертой успеха науки, особенно в физике, от фундаментального закона всемирного тяготения до квантовой механики и дальше. Поскольку вызовы, такие как изменение климата, атомный синтез и вычислительная биология, переключают наше внимание на более сложные вычисления, возникает все более острая потребность в кратких, но надежных упрощенных моделях, которые сохраняют физическую последовательность при более низкой стоимости. Научное машинное обучение – это развивающаяся область, которая обещает предоставить такие решения. Эта статья – краткий обзор последних методов обнаружения уравнений на основе данных, нацеленный на ученых и инженеров, знакомых с основами машинного обучения или статистики.

Мотивация и историческая перспектива

<р>Простое хорошее соответствие данных оказалось непродуманным занятием, как показал модель геоцентризма Птолемея, которая была наиболее наблюдательно точной до гелиоцентрической модели Кеплера. Таким образом, объединение наблюдений с основными физическими принципами играет большую роль в науке. Однако часто в физике мы забываем, насколько наши представления о мире уже основаны на данных. Возьмем, к примеру, стандартную модель частиц с 19 параметрами, численные значения которых получены в результате эксперимента. Модели системы Земли, используемые в метеорологии и климате, хотя и работают на физически последовательном ядре, основанном на гидродинамике, также требуют тщательной калибровки по наблюдениям для многих из их чувствительных параметров. Наконец, моделирование сниженного порядка приобретает популярность в сообществе астрофизики и ионосферы и, вероятно, останется актуальным в будущем. В таких областях, как биология и социальные науки, где подходы первых принципов менее эффективны, статистическая идентификация систем уже играет значительную роль.<р>В машинном обучении есть различные методы, которые позволяют прогнозировать эволюцию системы непосредственно из данных. Недавно нейронные сети достигли существенных прогрессов в области прогнозирования погоды, как показали команда “Гугл Дипмайнд” и другие. Это частично связано с огромными ресурсами, доступными им, а также с общедоступностью метеорологических данных и численных физических моделей прогнозирования погоды, которые интерполировали эти данные по всему миру благодаря ассимиляции данных. Однако если условия, при которых генерируются данные, изменяются (например, изменение климата), существует риск того, что такие модели, полностью основанные на данных, будут плохо обобщаться. Это означает, что применение таких «черных ящиков» в климатическом моделировании и в других ситуациях, где у нас мало данных, может вызывать сомнения. В этой статье я буду акцентировать внимание на методах, которые извлекают уравнение из данных, поскольку уравнения более интерпретируемы и менее подвержены переобучению. На языке машинного обучения мы можем называть такие парадигмы как “высокая смещенность – низкая дисперсия”.<р>Первый метод, заслуживающий упоминания, – это фундаментальное исследование Schmidt and Lipson, которое использовало генетическое программирование (GP) для символьной регрессии и извлекало уравнение из данных о траекториях простых динамических систем, таких как двойной маятник и т. д. Процедура состоит в генерации кандидатов-символьных функций, выявлении частных производных, участвующих в этих выражениях, и сравнении их с численно оцененными производными из данных. Процедура повторяется, пока не достигнута достаточная точность. Важно отметить, что так как существует очень большое количество потенциально точных кандидатских выражений, выбираются те, которые удовлетворяют принципу “скромности”. Скромность измеряется как обратное число членов в выражении, а точность предсказания измеряется как ошибка на удерживаемых экспериментальных данных, используемых только для проверки. Принцип скромного моделирования является основой обнаружения уравнений.

Идея генетического программирования (GP) состоит в исследовании пространства возможных аналитических выражений путем проб и потенциальных терминов. Это выражение закодировано в дереве выше, структура которого может быть представлена как своего рода «ген». Новые деревья получаются путем мутации последовательностей этих генов, выбора и скрещивания лучших кандидатов. Например, для получения уравнения в правом блоке просто следуйте стрелкам в иерархии дерева справа.

Этот метод имеет преимущество в исследовании различных возможных комбинаций аналитических выражений. Он был применен в различных системах, в частности, я хотел бы отметить AI – Feynman, который с помощью GP и нейронных сетей позволил идентифицировать из данных 100 уравнений из лекций Фейнмана о физике. Еще одним интересным применением GP является открытие океанских параметризаций в климате, где существенно более точная модель запускается для обеспечения тренировочных данных, в то время как из тренировочных данных обнаруживается корректировка для более дешевой модели с меньшей точностью. С этим нужно сказать, что GP не лишен недостатков, и применение человеческого фактора было необходимо для обеспечения хорошей работоспособности параметризаций. Кроме того, он может быть очень неэффективен, поскольку следует рецепту эволюции: проба и ошибка. Есть ли другие возможности? Это приводит нас к методу, который за последние годы доминировал в области открытия уравнений.

Разреженная идентификация системы

Sparse Identification of Nonlinear Dynamics (SINDy) относится к семейству концептуально простых, но мощных методов. Он был представлен группой Стивена Л. Брантона наряду с другими группами и поставляется с хорошо документированным, поддерживаемым репозиторием и видеоуроками на YouTube. Чтобы получить некоторые практические навыки, просто попробуйте их Jupyter-ноутбуки.

Я опишу метод в соответствии с оригинальной статьей SINDy. Обычно у нас есть данные о траектории, которые состоят из координат, таких как x(t), y(t), z(t) и т. д. Целью является восстановление дифференциальных уравнений первого порядка из данных:

Обычно, x(t) (иногда называемая функцией отклика) получается либо из наблюдений, либо из модельных данных. Затем целью является оценка оптимального выбора f = f(x) (правая часть дифференциального уравнения). Обычно пробуют библиотеку мономов, а алгоритм продолжает поиск разреженного вектора коэффициентов. Каждый элемент вектора коэффициентов контролирует, насколько важным является вклад этого монома во всё выражение.)
Здесь функция f = f(x) представлена в виде произведения библиотеки мономов на вектор разреженности. Смотрите графическое изображение ниже для дальнейшего объяснения.

Метод конечных разностей (например) обычно используется для вычисления производных на левой стороне ОДУ. Поскольку оценка производной подвержена ошибкам, это создает шум в данных, который обычно нежелателен. В некоторых случаях фильтрация может помочь справиться с этими проблемами. Затем выбирается библиотека мономов (базовых функций), которая подходит для правой стороны ОДУ, как описано на графике:

Sparse Identification of Nonlinear Dynamics (SINDy) as depicted in [1]. The idea is to extract a small collection of basis function (e.g. monomials), a subset of the full basis library, which satisfy the equation when the data is plugged in. On the left hand side the time derivatives are written (each column corresponds to different variable and each raw to the data sample which could be time), while on the right hand side there is the basis library matrix (whose raw spans each basis function) multiplied by the sparsity vector , which is the object that is being learned by the algorithm. Promoting sparsity means that we would prefer to end up with most values of these vector set to zero, which corresponds to the principle of Parismony.

Проблема заключается в том, что если у нас нет астрономического количества данных, то эту задачу можно считать безнадежной, так как множество различных полиномов могут хорошо подходить и приводить к впечатляющему переобучению. К счастью, здесь на помощь приходит разреженная регрессия: идея заключается в штрафовании наличия слишком большого количества активных функций на правой стороне. Это можно сделать различными способами. Один из методов, на котором базируется оригинальная SINDy, называется последовательным пороговым наименьшим квадратом (STLS), который можно резюмировать следующим образом:

The sparse representation code in Matlab from the supplementary material of the SINDy paper.

Другими словами, решаем задачу нахождения коэффициентов с использованием метода наименьших квадратов, а затем последовательно удаляем маленькие коэффициенты, применяя каждый раз метод наименьших квадратов. Процедура зависит от гиперпараметра, который контролирует допустимое значение для небольших коэффициентов. Этот параметр кажется произвольным, однако можно провести так называемый анализ Парето: определить этот гиперпараметр разреженности, удерживая некоторые данные и проверяя, насколько хорошо обученная модель работает на тестовом наборе. Разумное значение для этого коэффициента соответствует «локтю» на кривой точности против сложности обученной модели (сложность = количество включенных терминов), так называемому Парето-фронту. В качестве альтернативы некоторые другие публикации предлагают вместо анализа Парето использовать информационные критерии для поддержки разреженности.

В качестве самого простого применения SINDy рассмотрим, как STLS можно использовать для успешной идентификации модели Лоренца 63 на основе данных:

Example of SINDy applied to identification of Lorenz 63 model . The coefficients (color) approximately correspond to the ones used to generate the training data. This data was generated by solving the associated ODE with those parameters.

STLS имеет свои ограничения при применении к системам с большим числом степеней свободы, таким как уравнения в частных производных (УПП), в этом случае можно рассмотреть уменьшение размерности через анализ главных компонентов (PCA) или нелинейные автоэнкодеры и т. д. Позже алгоритм SINDy был дополнительно улучшен работой PDE-FIND статья , которая представила метод последовательного порогового регуляризации (STRidge). В последующей ридж-регрессии речь идет о регрессии с L2-штрафом, а в STRidge она чередуется с исключением малых коэффициентов, как в STLS. Это позволило обнаружить различные стандартные УПП в данных симуляции, такие как уравнение Бёргерса , уравнение Кортевега-де Фриза (KdV), уравнение Навье-Стокса, реакционно-диффузионные уравнения и даже довольно необычное уравнение, с которым часто сталкиваются в научном машинном обучении, называемое уравнение Курамото-Сивашинского , которое обычно сложно из-за необходимости прямого оценивания его четвертой производной на основе данных:

Уравнение Курамото-Сивашинского описывает диффузионно-термические неустойчивости в потоке ламинарного пламени

Определение этого уравнения происходит непосредственно из следующих входных данных (которые получаются путем численного решения того же уравнения):

Решение уравнения Курамото-Сивашинского. Правая панель отображает поле, а правая панель - его временную производную.

Это не значит, что метод подвержен ошибкам. На самом деле, одной из больших проблем при применении SINDy к реальным наблюдательным данным является то, что они обычно сами являются разреженными и шумными, и обычно идентификация страдает в таких условиях. Та же проблема также влияет на методы, основанные на символьной регрессии, такие как генетическое программирование (GP).

Weak SINDy – это более новое развитие, которое значительно повышает устойчивость алгоритма к шуму. Этот подход был реализован независимо несколькими авторами, наиболее известными из которых являются Дэниэл Мессенджер , Дэниэл Р. Гуревич и Патрик Райнбольд . Основная идея состоит в том, чтобы не открывать дифференциальную форму УПП, а обнаружить ее [слабую] интегральную форму, проинтегрировав УПП по набору областей, умножив его на некоторые тестовые функции. Это позволяет интегрировать по частям и таким образом устранить сложные производные из реакционной функции (неизвестного решения) УПП и вместо этого применить эти производные к известным тестовым функциям. Метод был дополнительно реализован в задаче открытия уравнений плазмы, выполненной Алвесом и Фиузой , где были восстановлены уравнение Власова и модели плазменной жидкости из данных симуляции.

Еще одно, довольно очевидное, ограничение подхода SINDy заключается в том, что идентификация всегда ограничивается библиотекой терминов, которые составляют основу, например, мономы. В то время как могут использоваться и другие типы базисных функций, такие как тригонометрические функции, это все равно недостаточно общее. Предположим, что УПП имеет форму рациональной функции, где и числитель, и знаменатель могут быть полиномами:

Ситуация, которая затрудняет применение алгоритмов, таких как PDE-FIND

Это тот тип ситуации, который, конечно же, может быть легко обработан с помощью генетического программирования (GP). Однако SINDy также был расширен для таких случаев, введя SINDy-PI (параллельно-неявную), который успешно использовался для определения уравнения, описывающего реакцию Белоусова-Жаботинского.

Кроме того, другие методы, способствующие разреженности, такие как разреженная байесовская регрессия, также известная как релевантная векторная машина (RVM), также использовались для определения уравнений из данных с использованием точно такого же подхода с библиотекой терминов, но с пользой от маргинализации и принципов “бритвы Оккама”, которые высоко уважаемы статистиками. Я не рассматриваю эти подходы здесь, но достаточно сказать, что некоторые авторы, такие как Чжан и Лин, утверждали более надежную идентификацию системы ОДУ, и этот подход даже пытались использовать для изучения замыканий простых бароклинных океанских моделей, где авторы утверждали, что RVM выглядело более надежным, чем STRidge. Кроме того, эти методы обеспечивают естественную оценку неопределенности (UQ) для оцененных коэффициентов установленного уравнения. Сказанное, более поздние разработки ансамбля SINDy более надежны и предоставляют UQ, но вместо этого полагаются на статистический метод “агрегации на основе бутстрэпа” (bagging), также широко применяемый в статистике и машинном обучении.

Идентификация на основе физики и глубокого обучения

Альтернативный подход и к решению, и к идентификации коэффициентов ОДУ, привлекший огромное внимание в литературе, касается “Physics Informed Neural Networks” (PINNs). Основная идея заключается в параметризации решения ОДУ с помощью нейронной сети и введении уравнения движения или других типов физических индуктивных предположений в функцию потерь. Функция потери вычисляется на предопределенном наборе так называемых “точек коллокации”. При выполнении градиентного спуска, веса нейронной сети регулируются и решение “изучается”. Единственные данные, которые нужно предоставить, включают начальные и граничные условия, которые также штрафуются в отдельном термине функции потерь. Фактически, этот метод заимствует из старых методов коллокационного решения ОДУ, которые не основывались на нейронных сетях. Тот факт, что нейронные сети предоставляют естественный способ автоматической дифференциации, делает этот подход очень привлекательным, однако оказывается, что PINNs, как оказывается, воспроизводят в целом не конкурентоспособными стандартные численные методы, такие как конечные объемы/элементы и т.д. Таким образом, как инструмент решения прямой задачи (численное решение ОДУ), PINNs не так интересны.

Они становятся интересными как инструмент для решения обратных задач: оценка модели на основе данных, а не генерация данных на основе известной модели. В оригинальной статье о PINNs два неизвестных коэффициента уравнения Навье-Стокса оцениваются на основе данных

Предполагаемая форма уравнения Навье-Стокса, которая передается в функцию потерь PINN. В результате идентификации получаются два неизвестных параметра (внутри желтых рамок). Для реализации PINN на tensorflow см.

Вспомнив, сравнивая с алгоритмами, такими как PDE-FIND, это кажется довольно наивным, так как общая форма уравнения уже предполагается. Тем не менее, одним интересным аспектом этой работы является то, что алгоритму не подается давление, вместо этого предполагается несжимаемое течение, и решение для давления восстанавливается непосредственно с помощью PINN.

PINNs были применены во всех возможных ситуациях, одно конкретное применение, которое я хотел бы подчеркнуть, это космическая погода, где было показано, что их применение позволяет оценивать плотность электронов в радиационных поясах, решая обратную задачу для уравнения Фоккера-Планка. Здесь ансамблевый метод (повторное обучение нейронной сети) оказывается удобным для оценки неопределенности. В конечном итоге для достижения интерпретируемости выполняется многочленное расширение выученных коэффициентов диффузии. Было бы интересно сравнить этот подход с использованием напрямую чего-то подобного SINDy, что также может предоставить многочленное расширение.

Термин “информированность физикой” был подхвачен другими командами, которые иногда придумывали свою собственную версию внедрения физических предпосылок в нейронные сети и следовали формуле, называемой их подходом что-то заманчивое, наподобие “основанное на физике” или “вдохновленное физикой” и т.д. Эти подходы иногда можно классифицировать как мягкие ограничения (наказывающие невыполнение некоторого уравнения или симметрии внутри функции потерь) или жесткие ограничения (внедрение ограничений в архитектуру нейронной сети). Примеры таких подходов можно найти в области климатических исследований, например, среди других дисциплин.

Учитывая, что обратное распространение ошибки нейронных сетей дает альтернативу для оценки временных и пространственных производных, казалось неизбежным, что методы разреженной регрессии (SR) или генетического программирования (GP) будут связаны с этими методами с нейронной коллокацией. Хотя таких исследований много, я бы хотел выделить одно из них – DeePyMoD для относительно документированного и поддерживаемого репозитория. Достаточно понять, как работает этот метод, чтобы понять все другие исследования, которые появились в то же время или позже, и улучшить их в различных аспектах.

DeePyMoD framework: Solution of the PDE is parameterised via a feed-forward Neural Network (NN). In the most recent paper the loss function consists of two terms: a Mean Square Error (MSE) term between the data and the NN prediction; regularisation loss which penalises the functional form of the PDE including the active library terms. Like in STLS of SINDy when the network converges to the solution the small terms in the sparsity vector are eliminated thus promoting only the largest coefficients of the library. Then the training of the NN is repeated until satisfying convergence criterion.

Функция потерь состоит из среднеквадратической ошибки (MSE):

и регуляризации, которая способствует функциональной форме ЧРК.

DeePyMoD более устойчив к шуму, даже по сравнению с слабым SINDy, и требует только доли точек наблюдения в пространственно-временной области, что является отличной новостью для открытия уравнений на основе наблюдаемых данных. Например, многие стандартные ПДУ, которые PDE-FIND правильно определяет, могут быть идентифицированы также DeePyMoD, но только с выборкой порядка нескольких тысяч точек в пространстве, включая данные, замусоренные шумом. Однако использование нейронных сетей для этой задачи сопряжено с более долгой сходимостью. Другая проблема заключается в том, что некоторые ПДУ проблематичны для обычных методов коллокации, например, уравнение Курамото-Сиваши, из-за его высоких производных высшего порядка. Уравнение КС обычно трудно идентифицировать на основе данных без слабых формальных подходов, особенно в присутствии шума. Более последние разработки, помогающие решить эту проблему, включают сопряжение слабого подхода SINDy с методами коллокации нейронных сетей. Еще один интересный, практически неразработанный вопрос – это то, как такие методы обычно влияют на не-гауссов шум.

Заключение

В заключение, обнаружение уравнений является естественным кандидатом для физического машинного обучения, которое активно разрабатывается различными группами в мире. Оно нашло применение во многих областях, таких как динамика жидкости, плазмафизика, климат и за ее пределами. Для общего обзора с акцентом на другие методы см. обзорную статью. Надеюсь, что читатель получил представление о различных методологиях, которые существуют в этой области, но я нащупал только поверхность, избегая слишком технических аспектов. Важно упомянуть множество новых подходов к физическому машинному обучению, такие как нейронные обыкновенные дифференциальные уравнения (ODEs).

Библиография

  1. Camps-Valls, G. et al. Discovering causal relations and equations from data. Physics Reports 1044, 1–68 (2023).
  2. Lam, R. et al. Learning skillful VoAGI-range global weather forecasting. Science 0, eadi2336 (2023).
  3. Mehta, P. et al. A high-bias, low-variance introduction to Machine Learning for physicists. Physics Reports 810, 1–124 (2019).
  4. Schmidt, M. & Lipson, H. Distilling Free-Form Natural Laws from Experimental Data. Science 324, 81–85 (2009).
  5. Udrescu, S.-M. & Tegmark, M. AI Feynman: A physics-inspired method for symbolic regression. Sci Adv 6, eaay2631 (2020).
  6. Ross, A., Li, Z., Perezhogin, P., Fernandez-Granda, C. & Zanna, L. Benchmarking of Machine Learning Ocean Subgrid Parameterizations in an Idealized Model. Journal of Advances in Modeling Earth Systems 15, e2022MS003258 (2023).
  7. Brunton, S. L., Proctor, J. L. & Kutz, J. N. Discovering governing equations from data by sparse identification of nonlinear dynamical systems. Proceedings of the National Academy of Sciences 113, 3932–3937 (2016).
  8. Mangan, N. M., Kutz, J. N., Brunton, S. L. & Proctor, J. L. Model selection for dynamical systems via sparse regression and information criteria. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences 473, 20170009 (2017).
  9. Rudy, S. H., Brunton, S. L., Proctor, J. L. & Kutz, J. N. Data-driven discovery of partial differential equations. Science Advances 3, e1602614 (2017).
  10. Messenger, D. A. & Bortz, D. M. Weak SINDy for partial differential equations. Journal of Computational Physics 443, 110525 (2021).
  11. Gurevich, D. R., Reinbold, P. A. K. & Grigoriev, R. O. Robust and optimal sparse regression for nonlinear PDE models. Chaos: An Interdisciplinary Journal of Nonlinear Science 29, 103113 (2019).
  12. Reinbold, P. A. K., Kageorge, L. M., Schatz, M. F. & Grigoriev, R. O. Robust learning from noisy, incomplete, high-dimensional experimental data via physically constrained symbolic regression. Nat Commun 12, 3219 (2021).
  13. Alves, E. P. & Fiuza, F. Data-driven discovery of reduced plasma physics models from fully kinetic simulations. Phys. Rev. Res. 4, 033192 (2022).
  14. Zhang, S. & Lin, G. Robust data-driven discovery of governing physical laws with error bars. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences 474, 20180305 (2018).
  15. Zanna, L. & Bolton, T. Data-Driven Equation Discovery of Ocean Mesoscale Closures. Geophysical Research Letters 47, e2020GL088376 (2020).
  16. Fasel, U., Kutz, J. N., Brunton, B. W. & Brunton, S. L. Ensemble-SINDy: Robust sparse model discovery in the low-data, high-noise limit, with active learning and control. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences 478, 20210904 (2022).
  17. Raissi, M., Perdikaris, P. & Karniadakis, G. E. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics 378, 686–707 (2019).
  18. Markidis, S. The Old and the New: Can Physics-Informed Deep-Learning Replace Traditional Linear Solvers? Frontiers in Big Data 4, (2021).
  19. Camporeale, E., Wilkie, G. J., Drozdov, A. Y. & Bortnik, J. Data-Driven Discovery of Fokker-Planck Equation for the Earth’s Radiation Belts Electrons Using Physics-Informed Neural Networks. Journal of Geophysical Research: Space Physics 127,