Сокращение разрыва между клиницистами и языковыми моделями в здравоохранении познакомьтесь с MedAlign, набором данных, созданным клиницистами для следования инструкциям в электронных медицинских записях.

'Closing the gap between clinicians and language models in healthcare, meet MedAlign, a dataset created by clinicians to follow instructions in electronic medical records.

Большие языковые модели (LLM) великолепно используют возможности обработки естественного языка. От производства и рассуждений на языке до понимания прочитанного, LLM может все. Потенциал этих моделей помочь врачам в их работе привлекает внимание во многих областях, включая здравоохранение. Недавние LLM, включая Med-PaLM и GPT-4, доказали свою компетентность в задачах, связанных с вопросно-ответными системами в медицине, особенно тех, которые связаны с медицинскими базами данных и экзаменами.

Постоянным ограничением является сложность определения, переносится ли выдающаяся производительность LLM на клинические контексты. Врачи выполняют различные обязанности, связанные с информацией, в индустрии здравоохранения, и эти работы часто требуют сложных неструктурированных данных из электронных медицинских записей (EHR). Сложность и тонкости, с которыми сталкиваются медицинские практики, не хорошо представлены в наборах данных вопросов и ответов для EHR, которые в настоящее время доступны. Когда врачи полагаются на LLM, им не хватает тонкости, необходимой для оценки того, насколько хорошо такие модели могут предоставить точные и контекстосознательные ответы.

Для преодоления этих ограничений исследовательская группа разработала MedAlign, набор данных, который включает в себя 983 вопроса и инструкции, представленные 15 практикующими врачами, специализирующимися в 7 различных медицинских областях. MedAlign фокусируется на парах инструкция-ответ, основанных на EHR, а не просто на парах вопрос-ответ, что отличает его от других наборов данных. Группа включила инструкции, написанные врачами, для 303 из этих инструкций и связала их с данными EHR, чтобы предложить контекст и основу для подсказок. Каждый врач оценил и ранжировал ответы, произведенные шестью различными LLM на этих 303 инструкциях, чтобы подтвердить надежность и качество набора данных.

Врачи также предоставили свои собственные стандарты золотого уровня. Создание набора данных, который включает инструкции, предоставленные врачами, экспертные оценки ответов, сгенерированных LLM, и связанный контекст EHR, является новаторским начинанием MedAlign. Этот набор данных отличается от других тем, что предоставляет полезный инструмент для оценки того, насколько хорошо LLM работают в клинических ситуациях.

Второй вклад демонстрирует жизнеспособность автоматизированного метода сопоставления соответствующих электронных медицинских записей пациентов с клиническими инструкциями. Для этого команда создала процедуру, которая делает запрос инструкций у врачей более эффективным и масштабируемым. Благодаря этому методу сбора инструкций они могут получать предложения от большего и более разнообразного набора врачей.

Они также оценили, насколько хорошо их автоматизированный метод соотносил инструкции с соответствующими EHR. Исследование показало, что в сравнении с случайным сочетанием инструкций с EHR, этот автоматизированный метод успешно предоставил соответствующие сочетания в 74% случаев. Этот результат подчеркивает возможность автоматизации для повышения эффективности и точности связи клинических данных.

Последний вклад исследует связь между параметрами автоматизированного генерирования естественного языка (NLG) и рейтингами врачей по отношению к ответам, сгенерированным LLM. Это исследование стремится определить, можно ли использовать масштабируемые автоматизированные меры для ранжирования ответов LLM вместо профессиональной оценки врача. Команда стремится уменьшить необходимость вручную идентифицировать и оценивать ответы LLM в будущих исследованиях, измеряя степень согласия между ранжами экспертов и автоматизированными критериями. Создание и улучшение LLM для медицинских приложений может быть ускорено благодаря этому стремлению сделать процесс обзора более эффективным и менее зависимым от человеческих ресурсов.