Познакомьтесь с Meditron набором открытых медицинских моделей больших языков (LLMs) на основе LLaMA-2.

Познакомьтесь с набором открытых медицинских моделей больших языков (LLMs) Meditron, основанных на LLaMA-2.

Одним из самых захватывающих применений больших языковых моделей (LLMs) является медицина, где некоторые из ее применений включают медицинское исследование, индивидуальные планы здоровья, клиническую диагностику и многие другие. Однако, учитывая критичность этой области, необходимо проводить испытания этих моделей в различных сценариях использования, чтобы убедиться в их безопасности. Кроме того, эти модели должны быть доступными для публики, чтобы ее можно было скрупулезно изучать.

Группа исследователей выпустила набор LLM-моделей под названием MediTron, которые являются доменно-адаптированными и основаны на LLaMA-2. Модель имеет два варианта – один с 7 млрд параметров и другой с 70 млрд. MediTron – это основная модель, которую можно использовать для конкретных задач с использованием RLHF или инструкции настройки, и некоторые из ее применений включают ответы на вопросы медицинского экзамена, общие запросы о здоровье, запросы информации о заболеваниях и поддержку дифференциальных диагнозов.

Тренировочный набор данных MediTron довольно полный и состоит из клинических руководств, медицинских статей вместе с их аннотациями и предварительных данных в общей области. Для оптимизации эффективности тренировки использовалась распределенная библиотека тренировки Megatron-LLM, и схема параллелизации использует параллелизм данных, каналов и тензоров для ускорения процесса.

Исследователи провели первоначальную оценку достоверности моделей по отношению к базовым моделям.

Они использовали набор данных TruthfulQA в качестве критерия сравнения и провели однократную оценку для модели с 7 млрд параметров и нулевую оценку для модели с 70 млрд параметров. Обе модели смогли продемонстрировать лучшие результаты, средний балл 71,2 для MediTron-70B в сравнении с 54,8 для LLaMA-2-70B, и 28,3 для MediTron-7B в сравнении с 12,6 для LLaMA-2-7B.

Для последующей оценки исследователи использовали различные тестовые критерии, такие как MedQA, PubMedQA и др., и определили точность задач многовариантного вопросно-ответного тестирования. Чтобы сравнить результаты, они также использовали различные LLM-модели, такие как LLaMA-7B, LLaMA-70B, Mistral-7B-instruct и т.д. Результаты показывают, что MediTron-7B и MediTron-70B превосходят конкурентов практически в каждом наборе данных, демонстрируя их превосходные возможности.

Хотя модель обучена на большом наборе медицинских данных и хорошо справляется с несколькими критериями оценки, пользователи должны быть осведомлены о ее ограничениях, и она не должна применяться в медицинских приложениях без дополнительного тестирования. Исследователи только начинают понимать возможности и ограничения модели, поэтому они предостерегают от использования ее в медицинских системах на данный момент.

В заключение, MediTron – это набор доменно-специфических LLM-моделей, которые были обучены на широком спектре медицинских наборов данных. Она имеет два варианта – один с 7 млрд параметров и другой с 70 млрд, и оба они смогли продемонстрировать более высокую производительность по сравнению с другими моделями, рассмотренными для оценки. Исследователи также отметили, что модель не должна применяться без дополнительного обучения, учитывая критичность этой области. В целом, модель представляет собой захватывающее развитие в медицине и имеет потенциал решить широкий спектр медицинских задач и помочь медицинским специалистам.