Высушивание пределов модели двух башен

Сушение пределов в моде две башни в тренде

Где ломаются предположения за архитектурой модели с двумя башнями — и как идти дальше

(Изображение созданное автором с использованием генеративного искусственного интеллекта)

Модели с двумя башнями являются одними из наиболее распространенных выборов архитектурного дизайна в современных системах рекомендаций — основная идея заключается в наличии одной башни, которая изучает значимость, и второй, неглубокой, башни, которая находит наблюдательные предубеждения, такие как позиционное предубеждение.

В этой статье мы ближе рассмотрим два предположения за моделями с двумя башнями:

  • предположение о факторизации, то есть гипотезу о том, что мы можем просто умножить вероятности, вычисленные двумя башнями (или сложить их логиты), и
  • предположение о позиционной независимости, то есть гипотезу о том, что единственная переменная, определяющая позиционное предубеждение, это позиция самого элемента, а не контекст, в котором он представлен.

Мы увидим, где оба этих предположения ломаются, и как преодолеть эти ограничения при помощи новых алгоритмов, таких как модель MixEM, модель Дот-продукт и XPA.

Начнем с очень краткого напоминания.

Возникновение моделей с двумя башнями в системах рекомендаций

Погружение в последние технологии, используемые для преодоления предубеждений в моделях ранжирования

towardsdatascience.com

Модели с двумя башнями: настоящая история

Основная цель обучения моделей ранжирования в системах рекомендаций – это значимость: мы хотим, чтобы модель предсказывала наилучший контент в зависимости от контекста. Здесь контекст просто означает все, что мы узнали о пользователе, например, из их предыдущей интеракции или истории поиска, в зависимости от приложения.

Однако модели ранжирования обычно проявляют определенные наблюдательные предубеждения, то есть склонность пользователей взаимодействовать больше или меньше с впечатлением, в зависимости от того, как оно было представлено. Самое заметное наблюдательное предубеждение – это позиционное предубеждение – склонность пользователей взаимодействовать больше с товарами, которые показываются первыми.

Основная идея в моделях с двумя башнями заключается в обучении двух “башен”, то есть нейронных сетей, параллельно, главная башня обучается научиться значимости, а…