Руководство по сбору реальных данных для машинного обучения

Guide on collecting real data for machine learning

5 действенных стратегий для оптимизации процесса сбора данных

Фото от Henrik Dønnestad на Unsplash

Независимо от того, являетесь ли вы новичком в области науки о данных или главным научным сотрудником по данным в крупной организации, вы, вероятно, играли с идеально подготовленными наборами данных для решения игрушечных проблем машинного обучения. Возможно, вы использовали кластеризацию K-средних для предсказания вида цветка в наборе данных Iris. Или, возможно, вы попробовали модель логистической регрессии для предсказания, какие пассажиры выжили в плавании Титаника.

Хотя эти наборы данных отлично подходят для освоения основ машинного обучения, они не отражают реальные данные, с которыми вы столкнетесь в работе. На самом деле, ваши данные могут иметь проблемы с качеством, могут быть не идеальными для поставленной задачи или могут еще не существовать. Это означает, что ученые по данным часто должны поднять рукава и собрать данные — задача, которая часто не рассматривается в современной программе по науке о данных.

Для новых ученых по данным сбор обширных объемов данных перед приступлением к решению конкретной задачи может показаться чрезвычайно сложным, поскольку этот этап заложит основу для всего проекта машинного обучения. Однако с правильными стратегиями этот процесс может стать намного более управляемым.

За свои более чем 10 лет работы в качестве ученого по данным я столкнулся с различными стратегиями сбора данных, и в этой статье я поделюсь пятью моими любимыми советами по оптимизации процесса сбора данных, чтобы помочь вам создать успешный продукт машинного обучения.

1. Превратите сбор данных в немедленную ценность для пользователя

Мощная отправная точка заключается в предоставлении ощутимой ценности с самого начала. Давайте возьмем пример от ведущего игрока в автомобильной промышленности, Tesla. Их стремление к полностью автономному транспортному средству является значительной целью, которая занимает многие годы разработки и требует огромного объема сбора данных.

Итак, что же они делали во время сбора всех этих данных?

Фото от Milan Csizmadia на Unsplash