Это исследование по искусственному интеллекту предлагает DISC-MedLLM всестороннее решение, использующее большие языковые модели (LLM) для предоставления точного медицинского ответа.

Это исследование предлагает DISC-MedLLM - решение по искусственному интеллекту, использующее большие языковые модели (LLM) для точного медицинского ответа.

Возникновение телемедицины изменило предоставление медицинской помощи, открывая профессиональные сети, снижая цены и позволяя проводить удаленные медицинские консультации. Кроме того, интеллектуальные медицинские системы улучшили онлайн-медицинские услуги, добавив возможности, такие как извлечение медицинской информации, рекомендации по препаратам, автоматическая диагностика и ответы на вопросы о здоровье. Несмотря на прогресс в создании интеллектуальных систем здравоохранения, ранее проведенные исследования сосредоточены на отдельных проблемах или заболеваниях с узкими применениями, что приводит к разрыву между экспериментальными разработками и реальным использованием. Для закрытия этого разрыва требуются полные решения для более широкого спектра медицинских сценариев и консультационных услуг в области здравоохранения самого высокого качества для потребителей.

Недавно большие языковые модели продемонстрировали удивительную способность вести значимые беседы и следовать инструкциям от людей. Эти достижения создали новые возможности для разработки систем медицинской консультации. Однако обстоятельства, связанные с медицинскими консультациями, обычно сложны и выходят за рамки общей области языковых моделей. Фигура 1 показывает иллюстрацию реальной медицинской консультации. Она обладает двумя характеристиками. Во-первых, требуется глубокие и надежные медицинские знания для понимания разговора и адекватного ответа на каждом этапе. Модели общей области выдают результаты, не связанные с конкретным случаем, что вызывает серьезные проблемы галлюцинации.

Во-вторых, для того чтобы предоставить консультацию по здравоохранению, часто требуется несколько раундов разговора, чтобы получить достаточно информации о пациенте. Каждый разговорный раунд имеет определенную цель. Однако модели общей области часто имеют ограниченные навыки многоразового запроса относительно состояния здоровья пользователя и являются одноразовыми агентами. Исходя из этих двух результатов, исследователи из Университета Фудан, Северо-Западного политехнического университета и Университета Торонто считают, что медицинские языковые модели должны закодировать глубокие и надежные медицинские знания, при этом соответствуя распределению реальной медицинской беседы. Вдохновленные успехом настройки инструкций, они исследуют, как создавать высококачественные наборы данных для обучения медицинских языковых моделей, включая знания о медицине и паттерны поведения консультации.

На практике они создают выборки с использованием трех разных методов:

• Разработка выборок на основе медицинского графа знаний. Следуя распределению запросов пациентов, собранных из набора данных реальных медицинских консультаций, они выбирают знания в виде троек из медицинской сети, используя подход, ориентированный на отделения. GPT-3.5 используется для создания пар вопрос-ответ для каждой тройки. В результате получается 50 тысяч выборок.

• Восстановление реального диалога. Для улучшения языковых моделей подходят записи консультаций, собранные с медицинских форумов. Язык, используемый в этих документах, неформален, терминология представлена несистематично, и различные медицинские практики имеют разные стили выражения. Поэтому они используют GPT-3.5 для воссоздания обсуждения на основе реальных случаев. В результате получается 420 тысяч выборок.

• После сбора выборки, предпочтение человека. Они вручную выбирают ограниченную группу записей из реальных медицинских дискуссий, охватывающих различные настройки консультаций, и переписывают определенные примеры для соответствия человеческому намерению. Они также гарантируют общее качество каждого обсуждения после реконструкции под руководством человека. В результате получается 2 тысячи выборок. Затем модель DISC-MedLLM обучается с использованием вновь созданных наборов данных SFT с использованием двухступенчатого процесса обучения на базе языковой модели общей области с 13 миллиардами параметров 1. Они оценивают производительность модели с двух точек зрения, чтобы определить ее способность предоставлять систематическую консультацию в многоразовых диалогах и точные ответы в одноразовых диалогах.

Рисунок 1: Пример разговора между пациентом и настоящим врачом. Медицинские сущности, упомянутые в ответе врача, выделены синим цветом. В каждом раунде действия врача отражают конкретные намерения: (1) в первом раунде проводится дополнительное исследование для сбора данных, которые помогают определить потенциальные сценарии; (2) во втором раунде делается предварительный диагноз и предлагаются обоснованные рекомендации; (3) в третьем раунде представлены конкретные варианты лечения в зависимости от медицинского состояния.

Они создали набор контрольных вопросов с выбором одного правильного ответа, собранных из трех общедоступных медицинских наборов данных и оценили точность модели, используя этот набор для оценки однократного общения. Для многократного обзора они сначала создали небольшую коллекцию отличных консультационных случаев, используя GPT-3.5 для имитации пациента и общения с моделью. Они оценили активность модели, ее точность, полезность и языковое качество с помощью GPT-4. Экспериментальные результаты показывают, что, хотя DISCMedLLM уступает GPT-3.5, он превосходит медицинский большой масштабный HuatuoGPT с идентичными параметрами в среднем более чем на 10%.

Кроме того, DISC-MedLLM в целом показывает лучшие результаты в условиях имитации медицинской консультации, чем базовые модели, такие как GPT-3.5, HuatuoGPT и BianQue. DISC-MedLLM превосходит другие китайские медицинские LLM-модели, особенно в случаях, связанных с медицинскими отделениями и намерениями пациента.