«Приближенные предсказания» делают выбор функций радикально быстрее

«Быстрые предсказания» сокращают время выбора функций кардинально

Отбор признаков так медленен, потому что требуется создание множества моделей. Узнайте, как сделать его потрясающе быстрым благодаря приближенным прогнозам

[Image by Author]

При разработке модели машинного обучения мы обычно начинаем с большого набора признаков, полученных в результате наших усилий по инженерии признаков.

Отбор признаков – это процесс выбора более маленького поднабора признаков, оптимальных для нашей модели машинного обучения.

Почему это делается, а не сохраняются все признаки?

  • Память. Большие данные занимают большое пространство. Удаление признаков означает, что вам нужно меньше памяти для обработки ваших данных. Иногда есть и внешние ограничения.
  • Время. Повторное обучение модели на меньшем количестве данных может сэкономить вам много времени.
  • Точность. Меньше – лучше: это также относится к машинному обучению. Включение избыточных или несущественных признаков означает включение ненужного шума. Часто случается так, что модель, обученная на меньшем количестве данных, показывает лучшие результаты.
  • Понятность. Маленькая модель более легко объяснима.
  • Отладка. Маленькая модель легче поддерживать и настраивать.

Теперь, основная проблема отбора признаков состоит в том, что это очень медленно из-за необходимости обучать множество моделей.

В этой статье мы рассмотрим трюк, который делает отбор признаков чрезвычайно быстрым благодаря “приближенным прогнозам”.

Очень сложная проблема

Давайте попробуем визуализировать проблему отбора признаков. Мы начинаем с N признаков, где N обычно сотни или тысячи.

Таким образом, результат отбора признаков можно рассматривать как массив длины N, состоящий из “да”/”нет”, где каждый элемент массива сообщает нам, выбран ли соответствующий признак или нет.

Результат отбора признаков. [Изображение от автора]

Процесс отбора признаков состоит в попытке разных “кандидатов” и, наконец, выборе наилучшего (согласно нашей метрике производительности).