Как Carrier предсказывает неисправности HVAC с использованием AWS Glue и Amazon SageMaker

Carrier predicts HVAC malfunctions with AWS Glue and Amazon SageMaker

Следуя их словам, «В 1902 году Уиллис Кэрриер решил одну из самых сложных задач контроля внутренней среды с помощью современного кондиционирования воздуха. Сегодня продукция компании Carrier создает комфортные условия, обеспечивает безопасность глобального продовольственного снабжения и обеспечивает безопасную транспортировку жизненно важных медицинских препаратов в сложных условиях».

В Carrier мы строим свой успех на создании продуктов, которым наши клиенты могут доверять, чтобы обеспечивать им комфорт и безопасность круглый год. Высокая надежность и низкая скорость простоя оборудования становятся все более важными, поскольку экстремальные температуры становятся более распространенными из-за изменения климата. Мы исторически полагались на системы, основанные на порогах, которые предупреждают нас о необычном поведении оборудования, используя параметры, определенные нашей инженерной командой. Хотя такие системы эффективны, они предназначены для выявления и диагностики проблем с оборудованием, а не для их предсказания. Предсказание неисправностей до их возникновения позволяет нашим дилерам по обслуживанию систем отопления, вентиляции и кондиционирования воздуха принимать меры заранее и улучшать клиентский опыт.

Чтобы улучшить надежность нашего оборудования, мы сотрудничали с лабораторией решений машинного обучения Amazon для разработки индивидуальной модели машинного обучения, способной предсказывать проблемы с оборудованием перед отказом. Наши команды разработали фреймворк для обработки более 50 ТБ исторических данных с датчиков и предсказания неисправностей с точностью 91%. Теперь мы можем уведомлять дилеров о предстоящем отказе оборудования, чтобы они могли планировать проверки и минимизировать время простоя. Решение масштабируемо при установке дополнительного оборудования и может быть использовано для различных задач моделирования.

В этом посте мы покажем, как команда Carrier и AWS применили машинное обучение для предсказания неисправностей в больших парках оборудования с использованием единой модели. Сначала мы рассмотрим, как мы используем AWS Glue для обработки данных с высокой параллельностью. Затем мы обсудим, как Amazon SageMaker помогает нам с инженерией признаков и созданием масштабируемой обучаемой модели глубокого обучения.

Обзор сценария использования, целей и рисков

Основная цель этого проекта – сократить время простоя, предсказывая предстоящие отказы оборудования и уведомляя дилеров. Это позволяет дилерам планировать обслуживание заранее и предоставлять исключительный сервис для клиентов. Мы столкнулись с тремя основными проблемами при работе над этим решением:

  • Масштабируемость данных – Обработка данных и извлечение признаков должны масштабироваться с учетом большого объема исторических данных с датчиков
  • Масштабируемость модели – Подход к моделированию должен быть способен масштабироваться на более чем 10 000 единиц
  • Точность модели – Необходимы низкие значения ложно положительных результатов, чтобы избежать ненужных проверок обслуживания

Масштабируемость, как с точки зрения данных, так и моделирования, является ключевым требованием для этого решения. У нас есть более 50 ТБ исторических данных оборудования и ожидается, что эти данные будут быстро расти с подключением большего количества систем кондиционирования воздуха к облаку. Обработка данных и вывод модели должны масштабироваться по мере роста наших данных. Чтобы наш подход к моделированию мог масштабироваться на более чем 10 000 единиц, нам нужна модель, которая может изучать на основе парка оборудования, а не полагаться на аномальные показания для одной единицы. Это позволит обобщать результаты на всех единицах и уменьшить затраты на вывод модели с помощью одной модели.

Другая проблема для этого сценария использования – срабатывание ложных сигналов тревоги. Это означает, что дилер или техник приезжает на место для проверки оборудования клиента и обнаруживает, что все работает нормально. Решение требует модели с высокой точностью, чтобы убедиться, что когда дилер получает сигнал тревоги, оборудование действительно скоро откажет. Это помогает завоевать доверие дилеров, техников и владельцев домов, а также снижает затраты, связанные с ненужными проверками на месте.

Мы сотрудничали с экспертами по искусственному интеллекту и машинному обучению в лаборатории решений по машинному обучению Amazon в течение 14-недельного периода разработки. В результате наше решение включает две основные компоненты. Первая – это модуль обработки данных, созданный с помощью AWS Glue, который обобщает поведение оборудования и уменьшает размер наших тренировочных данных для эффективной последующей обработки. Вторая – это интерфейс обучения модели, управляемый через SageMaker, который позволяет нам обучать, настраивать и оценивать нашу модель перед ее развертыванием на производственном конечном узле.

Обработка данных

Каждая установленная нами система кондиционирования воздуха генерирует данные от 90 различных датчиков с показаниями оборотов в минуту, температуры и давления в системе. Это примерно 8 миллионов точек данных, сгенерированных на одну единицу в день, с десятками тысяч установленных единиц. По мере подключения большего количества систем кондиционирования воздуха к облаку мы ожидаем быстрый рост объема данных, поэтому для нас критично управлять их размером и сложностью для использования в последующих задачах. Продолжительность истории сенсорных данных также представляет собой задачу моделирования. Единица может начать проявлять признаки предстоящего отказа за несколько месяцев до того, как отказ фактически произойдет. Это создает значительную задержку между предсказательным сигналом и фактическим отказом. Критически важно иметь метод сжатия длины входных данных для моделирования МО.

Для решения проблемы размера и сложности сенсорных данных мы сжимаем их в циклические признаки, как показано на рисунке 1. Это существенно уменьшает размер данных, сохраняя признаки, характеризующие поведение оборудования.

Рисунок 1: Пример данных датчика HVAC

AWS Glue – это безсерверная служба интеграции данных для обработки больших объемов данных в масштабе. AWS Glue позволяет нам легко запускать параллельную предварительную обработку данных и извлечение признаков. Мы использовали AWS Glue для обнаружения циклов и обобщения поведения блоков с использованием ключевых признаков, определенных нашей инженерной командой. Это значительно уменьшило размер нашего набора данных с более 8 миллионов точек данных в день на блок до примерно 1 200. Важно отметить, что такой подход сохраняет предиктивную информацию о поведении блоков с гораздо меньшим объемом данных.

Результатом работы AWS Glue является сводка поведения блоков для каждого цикла. Затем мы используем задание обработки Amazon SageMaker для вычисления признаков по циклам и маркировки наших данных. Мы формулируем задачу машинного обучения как задачу бинарной классификации с целью предсказания неисправностей оборудования в следующие 60 дней. Это позволяет нашей дилерской сети своевременно реагировать на потенциальные отказы оборудования. Важно отметить, что не все блоки выходят из строя в течение 60 дней. Блок, испытывающий медленное снижение производительности, может потребовать больше времени для отказа. Мы учитываем это на этапе оценки модели. Мы сосредоточились на моделировании летом, потому что в эти месяцы большинство систем HVAC в США работают стабильно и в более экстремальных условиях.

Моделирование

Трансформеры стали передовым подходом для работы с временными данными. Они могут использовать длинные последовательности исторических данных на каждом временном шаге без проблем с исчезающими градиентами. Вход в нашу модель в определенный момент времени состоит из признаков для предыдущих 128 циклов оборудования, что примерно равно одной неделе работы блока. Это обрабатывается трехслойным кодировщиком, результат которого усредняется и подается на вход многослойному перцептрону (MLP) классификатору. MLP-классификатор состоит из трех линейных слоев с функциями активации ReLU и последнего слоя с активацией LogSoftMax. Мы используем взвешенную функцию потерь отрицательного логарифма правдоподобия с разным весом для положительного класса. Это делает модель более точной и предотвращает дорогостоящие ложные срабатывания. Она также напрямую включает наши бизнес-цели в процесс обучения модели. На рисунке 2 показана архитектура трансформера.

Рисунок 2: Архитектура временного трансформера

Обучение

Одной из проблем при обучении этой модели временного обучения является несбалансированность данных. Некоторые блоки имеют более длительную историю работы, чем другие, и, следовательно, имеют больше циклов в нашем наборе данных. Поскольку они представлены в наборе данных в большем количестве, эти блоки будут оказывать большее влияние на нашу модель. Мы решаем эту проблему путем случайной выборки 100 циклов в истории работы блока, где мы оцениваем вероятность отказа в это время. Это гарантирует, что каждый блок равномерно представлен в процессе обучения. При удалении проблемы несбалансированных данных этот подход имеет дополнительное преимущество – он реплицирует подход пакетной обработки, который будет использоваться в производстве. Этот подход выборки был применен к обучающему, проверочному и тестовому наборам данных.

Обучение проводилось с использованием экземпляра с ускорением GPU на SageMaker. Мониторинг потерь показывает, что лучшие результаты достигаются после 180 эпох обучения, как показано на рисунке 3. На рисунке 4 показана площадь под ROC-кривой для полученной модели временной классификации – 81%.

Рисунок 3: Потери обучения по эпохам

Рисунок 4: ROC-AUC для блокировки на 60 дней

Оценка

Хотя наша модель обучается на уровне цикла, оценка должна происходить на уровне единицы. Таким образом, одна единица с несколькими правильными положительными обнаружениями все равно считается только одним истинным положительным на уровне единицы. Для этого мы анализируем перекрытие между предсказанными результатами и 60-дневным окном, предшествующим сбою. Это иллюстрируется на следующей фигуре, которая показывает четыре случая предсказания результатов:

  • Истинный отрицательный – Все результаты предсказания отрицательные (фиолетовые) (рисунок 5)
  • Ложное положительное – Положительные предсказания являются ложными срабатываниями (рисунок 6)
  • Ложное отрицательное – Хотя предсказания все отрицательные, фактические метки могут быть положительными (зеленые) (рисунок 7)
  • Истинное положительное – Некоторые предсказания могут быть отрицательными (зеленые), и по крайней мере одно предсказание является положительным (желтый) (рисунок 8)

Рисунок 5.1: Случай истинного отрицательного

Рисунок 5.2: Случай ложного положительного

Рисунок 5.3: Случай ложного отрицательного

Рисунок 5.4: Случай истинного положительного

После обучения мы используем набор оценки для настройки порога для отправки оповещения. Установка порога уверенности модели на уровне 0,99 дает точность примерно 81%. Это не соответствует нашему исходному критерию успеха в 90%. Однако мы обнаружили, что значительная часть единиц отказывается немного за пределами 60-дневного окна оценки. Это имеет смысл, потому что единица может активно проявлять неисправное поведение, но отказаться через 60 дней. Для решения этой проблемы мы определили метрику, называемую эффективной точностью, которая представляет собой комбинацию точности истинно положительных (81%) с добавленной точностью блокировок, которые произошли в течение 30 дней после нашего целевого 60-дневного окна.

Для дилера HVAC наиболее важно, чтобы присутствующий осмотр помог предотвратить будущие проблемы с HVAC для клиента. Используя эту модель, мы оцениваем, что в 81,2% случаев осмотр предотвратит блокировку в следующие 60 дней. Кроме того, в 10,4% случаев блокировка произойдет в течение 90 дней после осмотра. Оставшиеся 8,4% будут ложными срабатываниями. Эффективная точность обученной модели составляет 91,6%.

Заключение

В этом посте мы показали, как наша команда использовала AWS Glue и SageMaker для создания масштабируемого решения обучения с учителем для предиктивного обслуживания. Наша модель способна улавливать тенденции на основе долгосрочных историй данных сенсоров и точно обнаруживать сотни отказов оборудования за недели до их возникновения. Предсказание отказов заранее позволит сократить время от двери до двери, позволяя нашим дилерам предоставлять более своевременную техническую помощь и улучшать общий опыт клиентов. Влияние этого подхода будет расти с течением времени, поскольку каждый год устанавливается все больше подключенных к облаку единиц HVAC.

Нашим следующим шагом является интеграция этих познаний в предстоящем выпуске портала Connected Dealer Portal от Carrier. Портал объединяет эти предиктивные оповещения с другими познаниями, которые мы извлекаем из нашего на основе AWS хранилища данных, чтобы дать нашим дилерам более ясное представление о состоянии оборудования во всей клиентской базе. Мы продолжим улучшать нашу модель, интегрируя данные из дополнительных источников и извлекая более продвинутые характеристики из наших сенсорных данных. Методы, применяемые в этом проекте, обеспечивают прочную основу для ответа на другие ключевые вопросы, которые могут помочь нам сократить гарантийные претензии и улучшить эффективность оборудования в полевых условиях.

Если вам требуется помощь в ускорении использования машинного обучения в ваших продуктах и услугах, пожалуйста, свяжитесь с Amazon ML Solutions Lab. Чтобы узнать больше о сервисах, используемых в этом проекте, ознакомьтесь с руководством разработчика AWS Glue и руководством разработчика Amazon SageMaker.