Мониторинг моделей машинного обучения в производстве почему и как?

Мониторинг моделей машинного обучения в производстве - почему и как?

Как наша модель влияет на развивающийся мир? Анализ с акцентом на примерах дрейфа и внедрение стратегий мониторинга на основе Python

Разработка моделей машинного обучения (МО) часто занимает время и требует технической экспертизы. Как энтузиасты науки о данных, когда мы получаем набор данных для исследования и анализа, мы с удовольствием начинаем обучение и проверку его с использованием различных современных моделей или стратегий, ориентированных на данные. Это действительно приносит удовлетворение, когда мы оптимизируем производительность модели, как будто все задачи выполнены.

Однако после развертывания модели в продакшн есть множество причин, которые способствуют снижению производительности модели или ее деградации.

Фото Адриена Дельфоржа на Unsplash

#1 Обучающие данные генерируются с помощью симуляции

Ученые по данным часто сталкиваются с ограничениями в доступе к производственным данным, что приводит к обучению модели с использованием симулированных или выборочных данных. В то время как инженеры данных несут ответственность за обеспечение представительности обучающих данных в терминах масштаба и сложности, обучающие данные все равно отклоняются в некоторой степени от производственных данных. Существует также риск системных недостатков в предварительной обработке данных, таких как сбор и маркировка данных. Эти факторы могут повлиять на извлечение дополнительных полезных входных признаков или затруднить способность модели к обобщению.

Пример: Данные инвесторов в финансовой отрасли или информация о пациентах в сфере здравоохранения часто симулируются из-за проблем безопасности и конфиденциальности.

#2 Новые производственные данные отображают новое распределение данных

С течением времени могут изменяться характеристики входных признаков, такие как сдвиги в возрастных группах, диапазонах доходов или других демографических характеристиках клиентов. Источник данных сам по себе может быть полностью заменен из-за различных причин. В процессе разработки модели оптимизация основана на изучении и выявлении закономерностей в основной группе обучающих данных. Однако по мере того, как время идет, предыдущая основная группа может перейти в меньшинство в производственных данных, что делает исходную статическую модель непригодной для удовлетворения наиболее актуальных потребностей производства.