Следуйте этому процессу проверки данных, чтобы улучшить точность ваших научных данных
Проверьте данные, чтобы улучшить точность научных данных
Когда данные обучения и данные вывода поступают из разных источников
Содержание
- Введение
- Включение сбора данных
- Установка базовой линии
- Обнаружение выбросов
- Сводка
- Ссылки
Введение
Эта статья предназначена для специалистов по обработке данных, которые только начинают свой путь или хотят улучшить свой текущий процесс валидации данных, служащий общим руководством с некоторыми примерами. Во-первых, я хочу определить здесь понятие валидации данных, так как оно может иметь различные значения для других похожих профессий. Для целей этой статьи мы скажем, что валидация данных – это процесс обеспечения соответствия или согласованности тренировочных данных, используемых для вашей модели, с данными вывода. Для некоторых компаний и некоторых случаев использования вам не нужно беспокоиться об этой проблеме, если данные поступают из одного источника. Поэтому этот процесс должен происходить и пригоден только тогда, когда данные поступают из разных источников. Некоторые из причин, по которым данные могут поступать из разных источников, включают исторические данные обучения и пользовательские данные (например, признаки, полученные из существующих данных), а также данные вывода из живых таблиц, где обучение представляет собой снимки данных. Все это говорит о том, что причины для такого несоответствия могут быть различными, и будет очень полезно разработать масштабируемый процесс, чтобы убедиться, что данные, которые вы подаете на вход вашей модели при выводе, соответствуют ожидаемым данным – то есть данным, на которых была обучена модель.
Включение сбора данных
Существует множество способов включить сбор данных. Но снова, в первую очередь мы хотим определить данные, которые собираются, а именно данные вывода. Мы ожидаем, что наши тренировочные данные (включая как тренировочные, так и тестовые выборки) уже находятся где-то, возможно, в S3, инструменте для хранения файлов, во временной таблице в базе данных, даже в CSV-файле и так далее.