Как оценивать представления

Оценка представлений

От безуправного до контролируемых метрик

credit: Image from unsplash.com

Вложения, также известные как представления, являются плотными векторными представлениями сущностей, таких как слова, документы, продукты и другие. Они предназначены для захвата семантических значений и выявления сходств между сущностями. Хороший набор представлений должен не только эффективно кодировать основные особенности сущностей, но также обладать такими свойствами, как компактность, содержательность и устойчивость в различных задачах. В этой статье мы рассмотрим различные метрики оценки качества представлений. Давайте начнем.

Фреймворк оценки

Любой фреймворк оценки состоит из трех основных компонентов:

  1. Базовый метод: он служит в качестве эталона, с которым сравниваются новые подходы или модели. Он обеспечивает точку отсчета для оценки производительности предлагаемых методов.
  2. Набор метрик оценки: метрики оценки – это количественные меры, используемые для оценки производительности моделей. Эти метрики могут быть контролируемыми или безуправными и определяют, как оценивается успех выходных данных.
  3. Набор данных для оценки: набор данных для оценки – это коллекция помеченных/аннотированных или непомеченных данных, используемых для оценки производительности моделей. Этот набор данных должен быть представительным для сценариев реального мира, с которыми ожидается, что модели будут работать. Он должен охватывать широкий спектр примеров, чтобы обеспечить всестороннюю оценку.

Основываясь на том, требуют ли метрики оценки наличие истинных меток, мы можем разделить их на безуправные метрики и контролируемые метрики. Часто более выгодно использовать безуправные метрики, поскольку они не требуют меток, а сбор меток очень дорог в практике.

Ниже мы рассмотрим современные метрики. Для каждой метрики выберите базовый метод для сравнения ваших оценок. Базовым методом может быть просто “случайный генератор вложений”!

Контролируемые метрики оценки

Контролируемые метрики требуют наличия помеченного набора данных для оценки. Обычная стратегия заключается в выборе предиктора, такого как классификатор или регрессор. Затем обучите предиктор на ограниченном наборе помеченных данных из…