Онлайн машинное обучение для прогнозирования скорости потока сточных вод в аварийных ситуациях

Быстрый и точный прогноз скорости стока в аварийных ситуациях применение онлайн машинного обучения

Точное прогнозирование входящего расхода является необходимым для операторов и менеджеров станций по очистке сточных вод. Простыми словами, входной расход – это необработанная вода, поступающая на очистительную станцию. Этот прогноз тесно связан с характеристиками сточных вод, такими как биохимическая потребность в кислороде (BOD), общие взвешенные вещества (ТВ), и pH.

Предыдущие исследования показали, что модели, основанные на данных, эффективно прогнозируют входящие расходы. Однако многие из этих исследований были сосредоточены на пакетном обучении, когда данные собираются со временем, и модель машинного обучения обучается пакетами. Этот подход хорош, но требовал пересмотра, особенно в эпоху COVID-19, когда влиятельные образцы претерпели существенные изменения.

В машинном обучении пакетное обучение включает обработку данных дискретными порциями со временем. В отличие от этого, онлайн-обучение включает непрерывное обучение модели по мере получения новых данных. Во время COVID-19 ограничения пакетного обучения стали более явными из-за изменений во взаимосвязи вход-выход, вызванных COVID-19 блокировками. В ответ на это, команда переключила свое внимание на исследование моделей онлайн-обучения, чтобы определить их потенциал в преодолении этих ограничений.

Пэнгсио Чжоу, инженер-строитель из Макмастерского университета, объяснил, что они использовали инновационные методы машинного обучения для повышения способности прогнозировать входящие расходы сточной воды, особенно в уникальном контексте блокировки COVID-19.

Исследователи сравнили производительность традиционных моделей пакетного обучения, включая случайный лес, K-ближайших соседей и многослойный перцептрон, с соответствующими моделями онлайн-обучения: адаптивный случайный лес, адаптивные K-ближайшие соседи и адаптивный многослойный перцептрон при прогнозировании входящих расходов на двух станциях по очистке сточных вод в Канаде.

Модели онлайн-обучения последовательно превосходят традиционные модели пакетного обучения в различных сценариях, проявляя наивысшие значения R2, наименьшую среднюю абсолютную процентную ошибку (MAPE) и наименьшую среднеквадратическую ошибку (RMSE). Во всех случаях значения R2 для тестового набора данных, прогнозирующих входящие расходы за 24 часа вперед, были заметны.

Исследователи установили, что эти модели онлайн-обучения эффективно предоставляют надежные прогнозы в условиях динамических данных. Они обладают эффективностью в обработке непрерывных и значительных потоков входящих данных.

Команда создала свои модели, используя трех-четырехлетние данные почасового входящего расхода сточных вод и метеорологические данные, полученные со станций по очистке сточных вод в Канаде. Они провели сравнительный анализ, сопоставив модели онлайн-обучения соответствующим традиционным моделям пакетного обучения для прогнозирования входящих расходов на этих двух станциях.

Пэнгсио Чжоу отметил, что новые модели онлайн-обучения могут обеспечить более надежную поддержку принятия решений для операторов или менеджеров станций по очистке сточных вод в условиях изменения входящих образцов, вызванных чрезвычайными ситуациями, такими как COVID-19.

Для дальнейшей проверки эффективности созданных моделей, будущие усилия команды будут направлены на проведение большего количества случаев и изучение широкого спектра сценариев прогнозирования.