Следуйте этому процессу проверки данных, чтобы улучшить точность ваших научных данных

Проверьте данные, чтобы улучшить точность научных данных

Когда данные обучения и данные вывода поступают из разных источников

Фото от NordWood Themes на Unsplash [1].

Содержание

  1. Введение
  2. Включение сбора данных
  3. Установка базовой линии
  4. Обнаружение выбросов
  5. Сводка
  6. Ссылки

Введение

Эта статья предназначена для специалистов по обработке данных, которые только начинают свой путь или хотят улучшить свой текущий процесс валидации данных, служащий общим руководством с некоторыми примерами. Во-первых, я хочу определить здесь понятие валидации данных, так как оно может иметь различные значения для других похожих профессий. Для целей этой статьи мы скажем, что валидация данных – это процесс обеспечения соответствия или согласованности тренировочных данных, используемых для вашей модели, с данными вывода. Для некоторых компаний и некоторых случаев использования вам не нужно беспокоиться об этой проблеме, если данные поступают из одного источника. Поэтому этот процесс должен происходить и пригоден только тогда, когда данные поступают из разных источников. Некоторые из причин, по которым данные могут поступать из разных источников, включают исторические данные обучения и пользовательские данные (например, признаки, полученные из существующих данных), а также данные вывода из живых таблиц, где обучение представляет собой снимки данных. Все это говорит о том, что причины для такого несоответствия могут быть различными, и будет очень полезно разработать масштабируемый процесс, чтобы убедиться, что данные, которые вы подаете на вход вашей модели при выводе, соответствуют ожидаемым данным – то есть данным, на которых была обучена модель.

Включение сбора данных

Фото от Dennis Kummer на Unsplash [2].

Существует множество способов включить сбор данных. Но снова, в первую очередь мы хотим определить данные, которые собираются, а именно данные вывода. Мы ожидаем, что наши тренировочные данные (включая как тренировочные, так и тестовые выборки) уже находятся где-то, возможно, в S3, инструменте для хранения файлов, во временной таблице в базе данных, даже в CSV-файле и так далее.