ID против Мультимодальной системы рекомендаций перспектива обучения передаче

ID против мультимодальных систем рекомендаций перспективы обучения передаче

1. Развитие переносимых систем рекомендаций

Основная цель систем рекомендаций состоит в прогнозировании наиболее вероятного следующего взаимодействия, моделируя историческое поведение пользователя. Эта цель особенно сложна в случае ограниченной истории взаимодействия пользователя, что долго тормозило развитие систем рекомендаций, известное как проблема холодного старта. В сценариях холодного старта, например, на новоустановленных платформах рекомендаций с ограниченной последовательностью взаимодействия для новых пользователей, начальные этапы обучения модели часто страдают от нехватки достаточных образцов данных. Моделирование с ограниченными данными обучения неизбежно приводит к неудовлетворительным рекомендациям пользователя, затрудняя рост платформы. Решением этой проблемы является переносное обучение, на которое как академическая, так и промышленная общественность сосредоточены для решения этой проблемы. Внедрение предварительно обученных знаний в последующие сценарии значительно облегчит проблему холодного старта и поможет моделировать взаимодействия пользователя.

Поэтому исследования по переносимым системам рекомендаций проходят практически на каждом этапе развития области систем рекомендаций. Начиная с эпохи матричного разложения на основе идентификаторов товаров и идентификаторов пользователей, переносимые системы рекомендаций должны были достичь переносного обучения для рекомендательных систем на основе идентификаторов на основе данных, совпадающих в исходных и последующих сценариях. В последние годы наблюдается быстрое развитие технологий мультимодального понимания. Исследователи постепенно переключают свое внимание на моделирование последовательностей пользовательской информации для достижения переносимых рекомендаций даже в сценариях, где нет совпадения данных между исходным и последующими сценариями. В настоящее время модели рекомендаций, использующие большие языковые модели (LLM), привлекают большое внимание. Исследование переносимых систем рекомендаций и даже основных моделей для систем рекомендаций стало следующим фронтиром в области систем рекомендаций.

2. Основанные на идентификаторах переносимые системы рекомендаций

Первый этап был период матричного разложения, когда использование встроенных идентификаторов для моделирования товаров в алгоритмах коллаборативной фильтрации было доминирующей парадигмой в области систем рекомендаций и преобладало во всем сообществе по рекомендациям почти 15 лет. Классические архитектуры включают двухбашенную архитектуру, модели CTR, рекомендации сессий и последовательностей, и графовые сети. Все они используют встроенные идентификаторы для моделирования товаров, и существующие передовые рекомендательные системы в значительной степени полагаются на моделирование на основе идентификаторов.

На этом этапе переносимые системы рекомендаций естественным образом зависели от идентификаторов, и требовалось наличие перекрытия данных между исходными и последующими сценариями. Это означает, что между различными наборами данных должны существовать общие пользователи или товары. Например, в больших компаниях с несколькими бизнес-сценариями необходимо развивать новые бизнесы через приток, созданный существующими бизнесами. Ранние работы на этом этапе включают PeterRec [1] (SIGIR 2020), Conure [2] (SIGIR 2021) и CLUE [3] (ICDM 2021).

PeterRec – первая статья в области систем рекомендаций, которая явно утверждает универсальность представлений пользователей на основе самообученного предварительного обучения (авторегрессионные модели и модели языка с маской). Она ясно демонстрирует, что эти предварительно обученные универсальные представления могут быть использованы для перекрестных рекомендаций и прогнозирования профиля пользователя, существенно улучшая производительность. Оценка универсальности представления пользователей через прогнозирование профиля пользователя широко принята в последующих связанных статьях. Кроме того, PeterRec также выпустил масштабный набор данных для перекрестных рекомендательных систем.

Conure – первая модель непрерывного обучения в области беспрерывного обучения универсального представления пользователя в области систем рекомендаций. Она вводит модель, которая непрерывно учится и обслуживает несколько различных последующих задач одновременно. Концепция “один человек, один мир”, предложенная авторами, вдохновила текущие исследования в области систем рекомендаций, особенно в изучении моделей “один для всех”.

CLUE считает, что и алгоритмы PeterRec, и Conure используют авторегрессионные или маскирующие механизмы при обучении представлений пользователей, которые являются предсказаниями на основе товаров. Однако оптимальное представление пользователя должно четко моделировать и обучаться на полной пользовательской последовательности. Поэтому, объединяя контрастное обучение, можно достичь лучших результатов.

На этом этапе проводятся некоторые параллельные или будущие исследования, включая модель Star Alibaba (одна модель для обслуживания всех: адаптивный рекомендатель сетевой топологии для многодоменного прогнозирования CTR) и модель ShopperBERT (представление пользователя для систем рекомендаций в электронной коммерции).

3. Переносимые системы рекомендаций на основе модальной информации

Упомянутые выше исследования основываются на обмене (пользовательской или товарной) идентификационной информацией для достижения переносимых систем рекомендаций между разными областями. Этот подход хорошо подходит для внутрикорпоративных переводов в рамках одной компании. Однако на практике сложно различным системам рекомендаций обмениваться информацией об идентификаторах пользователей и товаров, что приводит к значительным ограничениям в исследованиях, связанных с перекрестными рекомендациями платформ.

В отличие от других сообществ глубокого обучения, таких как обработка естественного языка (NLP) и компьютерное зрение (CV), в последние годы появились влиятельные универсальные большие модели, также известные как фондовые модели. Примеры включают BERT, GPT, Vision Transformer и другие. В отличие от идентификационных функций, используемых в основном в области систем рекомендаций, задачи NLP и CV основаны на мультимодальных функциях текста и изображения, которые позволяют лучше повторное использование и передачу моделей между различными задачами. Основное направление в этой фазе заключается в замене идентификационных функций на модальный контент для облегчения передачи между разными системами и платформами. Представительные работы в этой фазе включают TransRec [4], MoRec [5] (SIGIR 2023), AdapterRec [6] (WSDM 2024) и NineRec [7].

TransRec – это первая модель системы рекомендаций, которая исследует передачу знаний на основе мультимодального обучения. Она также является первой моделью, которая учитывает передачу информации о пикселях изображения. TransRec использует подход обучения от начала до конца, а не прямое извлечение оффлайн-представлений мультимодальных элементов. По сравнению с идентификационными последовательными моделями рекомендаций, тонко настроенный TransRec может эффективно улучшить результаты рекомендаций. TransRec показывает, что предварительное обучение на масштабных данных, используя мультимодальную информацию, позволяет эффективно изучать взаимосвязи между пользователями и элементами и передавать это знание на последующие задачи, достигая общих возможностей рекомендаций. В работе также исследуется эффект масштабирования и планируется выпустить несколько мультимодальных наборов данных.

MoRec предлагает систематический ответ на вопрос о том, может ли использование современных модальных кодировщиков для представления элементов (MoRec) заменить классическую парадигму встраивания идентификаторов элементов (IDRec). В работе проводятся справедливые сравнения между MoRec и IDRec, указывая, что если MoRec может превзойти IDRec как в холодных, так и в горячих сценариях, это изменит классическую парадигму в области систем рекомендаций. Эта точка зрения основана на том, что MoRec моделирует пользователей полностью на основе модальной информации об элементах. Такая информация о содержимом по своей природе обладает передаточными свойствами, и в работе систематически демонстрируется через надежные эксперименты, что MoRec имеет потенциал достижения универсальной большой модели.

Вывод 1

Для последовательной архитектуры рекомендаций SASRec, в типичных сценариях (когда есть как популярные, так и малоизвестные элементы), MoRec значительно превосходит IDRec в рекомендациях на основе текста, но выполняет аналогично IDRec в рекомендациях на основе изображений. В сценариях холодного старта MoRec значительно превосходит IDRec, в то время как в рекомендациях для популярных элементов MoRec и IDRec выполняются на одном уровне.

Вывод 2

MoRec устанавливает связь между системами рекомендаций и сообществами NLP, CV и мультимодальными, в целом выгодуя от последних достижений в области NLP и CV.

Вывод 3

Популярный двухэтапный подход к оффлайн-извлечению функций в промышленности приводит к существенному снижению производительности MoRec, особенно в визуальных рекомендациях, что не должно быть пренебрежено на практике. Несмотря на революционный успех предварительных моделей в мультимодальной области в последние годы, их представления все еще не являются универсальными и обобщаемыми, по крайней мере, для систем рекомендаций. Эта работа вызывает вдохновение и приводит к различным связанным исследовательским усилиям в последнее время.

AdapterRec представляет первое систематическое обсуждение эффективных методов передачи на основе модальной информации. В работе оцениваются модельные патчи на основе адаптеров. В отличие от предыдущих подходов, которые тонко настраивают все параметры для передачи вниз по цепочке, AdapterRec вставляет и тонко настраивает сети адаптеров внутри сети модели во время передачи. В работе проводятся обширные эксперименты проверки на крупномасштабных текстовых и модальных данных.

Результаты показывают, что adapterRec, основанный на текстовых и изображениях модальностях, достигает хороших эффектов передачи. В текстовом сценарии adapterRec может достичь результатов передачи, аналогичных тонкой настройке всех параметров при гораздо меньших вычислительных затратах. AdapterRec подтверждает, что эффективные методы передачи на основе технологии адаптеров являются неотъемлемой частью создания универсальных больших моделей для систем рекомендаций.

NineRec представляет самый большой и самый разнообразный мультимодальный набор данных для передачи знаний до настоящего времени в области систем рекомендаций. Следуя принципам справедливого сравнения между MoRec и IDRec, в работе систематически оцениваются возможности передачи MoRec и предоставляются подробные руководства и платформы оценки. NineRec предлагает масштабный предварительный набор данных (с 2 миллионами пользователей, 144 тысячами элементов и 24 миллионами взаимодействий пользователей и элементов) и девять наборов данных для последующего применения (включая пять с одной и той же платформы с разными сценариями и четыре с разных платформ).

В работе проводятся масштабные эксперименты для оценки производительности передачи различных классических архитектур рекомендаций (SASRec, BERT4Rec, NextItNet, GRU4Rec) и кодировщиков элементов (BERT, Roberta, OPT, ResNet, Swin Transformer). Также проверяется влияние подходов end-to-end и двухэтапного подхода на междоменные рекомендации. Экспериментальные результаты показывают, что техники обучения от начала до конца могут значительно раскрыть потенциал модальной информации и даже использование классических фреймворков, таких как SASRec, может превзойти недавние аналогичные модели передачи рекомендаций. В работе также подтверждается способность нулевой передачи на основе чистой модальной информации.

NineRec предоставляет новую платформу и эталон для переноса обучения рекомендательных систем на основе моделей и разработки крупных моделей рекомендаций. Следующие после NineRec (только текстовая и визуальная модальности) команда выпустила вместе с ним набор данных MicroLens [10], который является самым крупным на сегодняшний день набором для рекомендаций по коротким видео. Он включает оригинальные короткие видео и имеет масштаб, тысячу раз больший, чем другие связанные наборы данных, с 30 миллионами пользователей и 1 миллиардом кликов, что делает его подходящим для обучения крупных моделей рекомендаций. Затраты на вычисления и сбор данных для NineRec и MicroLens превысили один миллион юаней.

4. Переносимые системы рекомендаций на основе крупных языковых моделей (LLMs)

Сфера искусственного интеллекта в настоящее время переживает эру крупных моделей, существующих в разных областях, что значительно продвигает сообщество искусственного интеллекта. Однако применение технологии крупных моделей в области рекомендательных систем все еще находится в начальной стадии. Еще не на все вопросы можно дать удовлетворительные ответы, такие как то, может ли использование крупных языковых моделей для понимания задач рекомендаций значительно превзойти существующую парадигму идентификаторов и может ли использование моделей с большим количеством параметров привести к универсальным рекомендациям. Ответы на эти вопросы являются ключевыми для перевода сообщества рекомендательных систем в эру крупных моделей, и они привлекают все больше внимания многих исследовательских групп.

GPT4Rec [8] является одной из репрезентативных работ на этом этапе. GPT4Rec широко оценивает возможности 175-миллиардного кодировщика. Также существуют другие работы, например, основанные на подсказках, цепочке мыслей, ChatGPT и другие. Кроме того, существуют параллельные работы, включая LLM от Google для прогнозирования рейтинга [9]. Аналогично GPT4Rec, они оба оценивают пределы производительности с помощью переносных моделей, одна сфокусирована на рекомендациях топ-n-элементов, а другая сосредоточена на прогнозировании рейтинга.

GPT4Rec первый исследует использование модели языка с параметрами на уровне ста миллиардов в качестве кодировщика элементов. В статье рассматриваются и решаются несколько ключевых вопросов:

  1. Как эволюционирует производительность рекомендательных алгоритмов на основе текста (TCF), по мере увеличения числа параметров кодировщика элементов, и существует ли предел производительности даже на стомиллиардной шкале параметров?
  2. Могут ли суперкрупные параметрические LLM, такие как 175-миллиардный GPT-3, генерировать универсальные представления элементов?
  3. Могут ли алгоритмы систем рекомендаций, оснащенные 175-миллиардным LLM, превзойти классические алгоритмы на основе идентификаторов элементов при справедливых сравнениях?
  4. Как далеко от универсальных крупных моделей для систем рекомендаций на основе текста (TCF) с использованием LLM?

Экспериментальные результаты выявляют следующее:

  1. Возможно, что 175-миллиардные параметры LLM еще не достигли своих пределов производительности. Наблюдения показывают, что производительность модели TCF не сходится при переходе от 13-миллиардных параметров к 175-миллиардным параметрам LLM. Это указывает на то, что использование LLM с большим количеством параметров в качестве кодировщиков текста имеет потенциал для повышения точности рекомендаций в будущем.
  2. Даже представления элементов, изученные очень крупными LLM (например, GPT-3), могут не обязательно формировать универсальное представление. Предварительная настройка релевантных наборов данных систем рекомендаций все еще необходима для достижения передовых результатов, по крайней мере, для текстовых задач рекомендаций.
  3. Даже с 175-миллиардными и предварительно настроенными 66-миллиардными языковыми моделями при использовании DSSM в качестве основы рекомендаций, TCF все равно существенно уступает IDRec. Однако для моделей последовательных рекомендаций LLM, даже при использовании замороженных представлений, могут грубо конкурировать с IDRec.
  4. Хотя производительность моделей TCF с LLM в 175 миллиардов параметров превосходит случайную выборку элементов в рекомендациях, достигая улучшений в 6-40 раз, все еще существует значительный разрыв по сравнению с моделями TCF, переобученными на наборе данных для рекомендаций.
  5. В документе также обнаружено, что ChatGPT показывает значительно худшие результаты по сравнению с TCF в типичных сценариях систем рекомендаций, что указывает на то, что для использования ChatGPT в определенных реальных сценариях рекомендаций могут потребоваться более точные подсказки.

5. Заключение

В настоящее время в сообществе систем рекомендаций исследования по крупным моделям на основе модальности находятся на начальной стадии. Многие ключевые вызовы и ограничения могут быть сформулированы следующим образом:

  1. Традиционные алгоритмы рекомендации на основе ID сталкиваются с вызовами в обработке модальных сценариев, где информация о пользователе и элементе доступна в различных формах, выходящих за пределы традиционных идентификаторов.
  2. Существующая литература по переносимым системам рекомендаций в разных областях, основанным на модальных данных, часто не обладает обобщаемостью, что затрудняет применение результатов в различных задачах и областях рекомендаций.
  3. В отличие от полного совместного обучения, предварительно извлеченные признаки могут иметь проблемы, такие как несоответствие масштабирования, и обычно могут генерировать только субоптимальные рекомендации.
  4. Сообщество лишено крупномасштабных, общедоступных наборов данных, которые содержат модальное содержимое для исследования в области переноса обучения, а также бенчмарк-наборы данных и рейтинги для оценки производительности моделей.
  5. Существующие исследования по крупным моделям рекомендательных систем часто имеют относительно небольшие параметры модели и объем данных (по сравнению с областями NLP и CV), и параметры предварительного обучения крупных моделей с открытым исходным кодом также крайне недостаточны.

Ссылки

[1] Parameter-efficient transfer from sequential behaviors for user modeling and recommendation (SIGIR2020)

[2] One Person, One Model, One World: Learning Continual User Representation without Forgetting (SIGIR2021)

[3] Learning transferable user representations with sequential behaviors via contrastive pre-training (ICDM2021)

[4] TransRec: Learning Transferable Recommendation from Mixture-of-Modality Feedback. Arxiv2022/06

[5] Где идти дальше для рекомендательных систем? ID- vs. Modality-based Recommender Models Revisited (SIGIR2023)

[6] Исследование переноса обучения на основе адаптеров для рекомендательных систем: эмпирические исследования и практические идеи (WSDM2024)

[7] NineRec: набор наборов данных для переноса обучения для рекомендательных систем на основе модальностей. Arxiv2023/09

[8] Исследование верхних пределов текстовой коллаборативной фильтрации с использованием больших языковых моделей: открытия и идеи. Arxiv2023/05

[9] Понимают ли большие языковые модели предпочтения пользователей? Оценка больших языковых моделей по предсказанию пользовательских рейтингов. Arxiv2023/05

[10] Набор данных рекомендаций на основе контента для микро-видео с масштабами. Arxiv2023/09