«Вы используете модель с извлечением и генерацией на основе восстановления (RAG) для биомедицины? Познакомьтесь с MedCPT контрастивной предварительно обученной трансформерной моделью для подачи нулевых запросов на биомедицинскую информацию».

«Познакомьтесь с MedCPT контрастивной предварительно обученной трансформерной моделью для нулевых запросов в биомедицине с использованием извлечения и генерации на основе восстановления (RAG)»

Модели информационного поиска (IR) имеют способность сортировать и ранжировать документы на основе запросов пользователей, обеспечивая эффективный и эффективный доступ к информации. Одним из наиболее захватывающих приложений IR является область биомедицины, где он может быть использован для поиска соответствующей научной литературы и помощи медицинским специалистам в принятии решений на основе доказательств.

Однако, поскольку большинство существующих систем IR в этой области основаны на ключевых словах, они могут пропустить соответствующие статьи, которые не совпадают с точно такими же ключевыми словами. Кроме того, плотные модели, основанные на поиске, обучаются на общем наборе данных, которые не могут хорошо работать в задачах, связанных с конкретной областью. Кроме того, также существует нехватка таких областных наборов данных, что ограничивает развитие обобщаемых моделей.

Для решения этих проблем авторы этой статьи представили MedCPT, модель IR, которая была обучена на 255 миллионах пар запрос-статья из анонимизированных журналов поиска PubMed. Традиционные модели IR имеют различия между модулями поиска и переранжировки, что влияет на их производительность. MedCPT, с другой стороны, является первой моделью IR, объединяющей эти два компонента с использованием контрастного обучения. Это гарантирует, что процесс переранжировки более тесно соответствует характеристикам извлеченных статей, делая всю систему более эффективной.

Как уже упоминалось выше, MedCPT состоит из поисковиков первого этапа и переранжировщика второго этапа. Эта архитектура с двумя кодировщиками масштабируема, поскольку документы могут быть закодированы в автономном режиме, и только запрос пользователя нужно закодировать во время вывода. Вторичная модель использует поиск ближайших соседей для определения частей документов, наиболее похожих на закодированный запрос. Переранжировщик, который является перекрестным кодировщиком, дополнительно уточняет ранжировку верхних статей, возвращаемых поисковиком, и генерирует окончательное ранжирование статей.

Хотя переранжировщик является вычислительно затратным, всё же весь архитектурный подход MedCPT является эффективным, поскольку перед процессом переранжировки требуется только одна кодировка и поиск ближайших соседей. MedCPT был оценен в широком диапазоне нулевых биомедицинских задач IR. Ниже представлены результаты:

  • MedCPT достигает наилучших результатов восстановления документа по трем из пяти биомедицинских задач в наборе данных BEIR. Он превосходит намного более крупные модели, такие как GTR-XXL (4.8B) от Google и cpt-text-XL (175B) от OpenAI.
  • Кодировщик статей MedCPT превосходит другие модели, такие как SPECTER и SciNCL, при оценке по задаче сходства статей RELISH. Кроме того, он также достигает наилучших показателей производительности в задаче прогнозирования MeSH в SciDocs.
  • Кодировщик запросов MedCPT позволяет эффективно кодировать биомедицинские и клинические предложения.

В заключение, MedCPT – это первая модель информационного поиска, интегрирующая пару модулей – поисковика и переранжировщика. Эта архитектура обеспечивает баланс между эффективностью и производительностью, и MedCPT способна достичь наилучших результатов во многих биомедицинских задачах и превосходить многие более крупные модели. Модель может быть применена в различных биомедицинских приложениях, таких как рекомендация связанных статей, поиск похожих предложений, поиск соответствующих документов и т. д., что делает ее неотъемлемым инструментом как для обнаружения биомедицинских знаний, так и для клинической поддержки принятия решений.