3 Революционные техники использования неотмеченных данных в машинном обучении

3 Революционные техники применения неотмеченных данных в машинном обучении

Аннотация может быть очень, очень дорогой

Фото Pietro Jeng на Unsplash

Вы отправляетесь в путешествие, чтобы стать инженером машинного обучения или просто страстным учеником, желающим извлечь инсайты из богатства неразмеченных данных в реальном мире? Если да, то понимание эффективного использования неразмеченных данных является необходимым.

В начале своего пути в качестве data scientist, я на самом деле играл с общедоступными наборами данных, такими как Kaggle, которые были правильно организованы, и, в большинстве случаев, у набора данных были метки.

Большое осознание пришло, когда 99% устоявшихся компаний использовали исходные данные для обучения своих моделей машинного обучения. Исходные данные лишены правильной структуры и меток, что делает их золотой жилой, полным неизведанного потенциала.

Компании не используют эти исходные данные просто так для обучения моделей, вместо этого они аннотируют исходные данные, нанимая людей.

Аннотация: разметка данных.

Например: Вы хотите обнаружить Лионеля Месси, когда он находится на телевидении, поэтому для этого вам необходимо обучить модель с помощью множества изображений Месси с ограничивающим прямоугольником. Этот ограничивающий прямоугольник является меткой для модели, чтобы она знала, что Месси присутствует на изображении в определенном положении.

Лионель Месси — Аннотации. Изображение от автора

Почему неразмеченные данные могут быть дорогими?

Многие могут подумать: “Нет, я буду использовать только размеченные данные”. Что скорее всего будет верным для ближайших нескольких лет. Что я имею в виду, это то, что в будущем вам нужно будет готовиться обучать модели, используя неразмеченные данные.

Приходя к дорогим аспектам, превращение неразмеченных данных в размеченные данные – это миллиардолларная индустрия.

Аннотация данных дорога потому что:

  • Для того, чтобы разметить ключевые данные идеально, требуется предметная экспертиза, такая как:
  • 1. Медицинские изображения
  • 2. Автомобили с автопилотами
  • Скорость и Объем данных будут увеличиваться, поэтому количество людей для аннотации будет увеличиваться.