Революционизация здравоохранения исследование влияния и будущего использования больших языковых моделей в медицине.

Революционный прорыв в медицине исследование воздействия и будущее применения широкомасштабных языковых моделей в здравоохранении

Интеграция и применение больших языковых моделей (LLMs) в медицине и здравоохранении вызывает значительный интерес и развитие.

Как отмечено на глобальной конференции Healthcare Information Management and Systems Society и других значимых событиях, компании, такие как Google, являются лидерами в исследовании потенциала генеративного искусственного интеллекта в медицине. Их инициативы, такие как Med-PaLM 2, подчеркивают развивающуюся область AI-ориентированных решений в здравоохранении, особенно в областях диагностики, пациентского ухода и административной эффективности.

Медицинская модель Med-PaLM 2 от Google, являющаяся пионером LLM в области здравоохранения, продемонстрировала впечатляющие возможности, особенно достигая уровня “эксперта” в вопросах в стиле U.S. Medical Licensing Examination. Эта модель, а также подобные ей, обещают революционизировать способ, которым медицинские специалисты получают доступ и используют информацию, что потенциально улучшает диагностическую точность и эффективность ухода за пациентами.

Однако вместе с этими достижениями возникли опасения о практичности и безопасности этих технологий в клинической практике. Например, основанная на обширных интернет-источниках данных для обучения модели, хотя и полезная в некоторых контекстах, может быть неподходящей или ненадежной для медицинских целей. Как отмечает д-р Нигам Шах, главный научный сотрудник по данным в Stanford Health Care, важно задавать вопросы о производительности этих моделей в реальных медицинских условиях и их реальном влиянии на уход за пациентами и эффективность здравоохранения.

Взгляд д-ра Шаха подчеркивает необходимость более целенаправленного подхода к использованию LLM в медицине. Вместо моделей общего назначения, обученных на широком интернет-контенте, он предлагает более фокусированную стратегию, где модели обучаются на специфических, актуальных медицинских данных. Этот подход напоминает обучение медицинского интерна – предоставление им конкретных задач, контроль их выполнения и постепенное предоставление большей автономии по мере демонстрации компетенции.

В соответствии с этим разработка Meditron исследователями EPFL представляет интересное достижение в этой области. Meditron, открытая LLM, специально разработанная для медицинских приложений, является значительным шагом вперед. Обученная на отобранной медицинской информации из надежных источников, таких как PubMed и клинические рекомендации, Meditron предлагает более фокусированный и потенциально более надежный инструмент для медицинских практиков. Его открытый исходный код не только способствует прозрачности и сотрудничеству, но и позволяет постоянно совершенствовать и ставить на тестирование широким исследовательским сообществом.

MEDITRON-70B достигает точности 70,2% по вопросам в стиле USMLE в наборе данных MedQA с 4-мя вариантами ответа

MEDITRON-70B достигает точности 70,2% по вопросам в стиле USMLE в наборе данных MedQA с 4-мя вариантами ответа

Разработка инструментов, таких как Meditron, Med-PaLM 2 и других, отражает растущее признание уникальных требований здравоохранения к применению искусственного интеллекта. Сосредоточение на обучении этих моделей на релевантных высококачественных медицинских данных и обеспечение их безопасности и надежности в клинических условиях представляет важный аспект.

Более того, включение разнообразных наборов данных, в том числе из гуманитарных ситуаций, таких как Международный Комитет Красного Креста, демонстрирует чувствительность к разнообразным потребностям и проблемам в мировом здравоохранении. Данный подход соответствует общей миссии многих исследовательских центров в области искусственного интеллекта, нацеленных на создание таких инструментов, которые будут не только технологически продвинутыми, но и социально ответственными и полезными.

Недавно опубликованная статья с названием “Large language models encode clinical knowledge” в журнале Nature исследует эффективное использование больших языковых моделей (LLMs) в клинической практике. Исследование представляет новаторские инсайты и методологии, проливающие свет на возможности и ограничения LLM в медицинской сфере.

Медицинская сфера характеризуется своей сложностью, с огромным количеством симптомов, заболеваний и методов лечения, которые постоянно развиваются. LLM должны не только понимать эту сложность, но и быть в курсе последних медицинских знаний и рекомендаций.

Основой этого исследования является новый составленный бенчмарк под названием MultiMedQA. Этот бенчмарк объединяет шесть существующих наборов данных по медицинскому вопросно-ответному подходу с новым набором данных HealthSearchQA, который включает в себя медицинские вопросы, часто ищущиеся в Интернете. Такой комплексный подход направлен на оценку LLM (языковых моделей с огромным количеством параметров) по различным измерениям, включая фактуальность, понимание, логическое мышление, возможный вред и предвзятость, тем самым решая ограничения предыдущих автоматических оценок, которые опирались на ограниченные бенчмарки.

MultiMedQA, бенчмарк для ответов на медицинские вопросы, охватывающий медицинский экзамен

MultiMedQA, бенчмарк для ответов на медицинские вопросы, охватывающий медицинский экзамен

Ключевым элементом этого исследования является оценка модели Pathways Language Model (PaLM), имеющей 540 миллиардов параметров, и ее варианта, настроенного по инструкции, Flan-PaLM, на основе MultiMedQA. Важно отметить, что Flan-PaLM достигает передовой точности на всех наборах данных с множественным выбором в рамках MultiMedQA, включая точность 67,6% на MedQA, в котором содержатся вопросы в стиле экзаменов по лицензированию в области медицины США. Эта производительность признана значительным улучшением по сравнению с предыдущими моделями, превосходящими предыдущие достижения более чем на 17%.

MedQA

Набор данных MedQA3 содержит вопросы в стиле USMLE (экзамены в области медицины США), каждый из которых имеет четыре или пять вариантов ответа. Он включает набор для разработки с 11 450 вопросами и тестовый набор из 1 273 вопросов.

Формат: вопрос и ответ (Q + A), множественный выбор, открытая область.

Пример вопроса: 65-летний мужчина с гипертонией приходит к врачу на регулярный осмотр. В его текущей терапии принимаются атенолол, лизиноприл и аторвастатин. Его пульс составляет 86 ударов в минуту, дыхание — 18 в минуту, а артериальное давление — 145/95 мм рт. ст. Кардиологическое обследование выявляет конечно-диастолический шум. Что является наиболее вероятной причиной этого физикального обследования?

Ответы (правильный ответ выделен жирным шрифтом): (А) Снижение смещения левого желудочка, (Б) Миксоматозное поражение митрального клапана, (В) Воспаление сердечной оболочки, (Г) Расширение аорты, (Д) Утолщение митральных клапанов.

Исследование также выявляет критические недостатки в производительности модели, особенно в ответах на медицинские вопросы потребителей. Для решения этих проблем исследователи вводят метод, известный как настройка инструкции. Эта техника позволяет эффективно настраивать LLM на новые области с помощью нескольких примеров, что приводит к созданию модели Med-PaLM. Хотя модель Med-PaLM проявляет обнадеживающую производительность и демонстрирует улучшение в понимании, восприятии знаний и логическом мышлении, она все еще отстает от показателей, достигаемых клиницистами.

Значимую роль в данном исследовании играет подробная оценка ответов модели человеком. Эта оценка оценивает согласованность ответов моделей с научным консенсусом и потенциальные вредные последствия. Например, только 61,9% длинных ответов Flan-PaLM соответствуют научному консенсусу, тогда как эта цифра увеличивается до 92,6% в случае Med-PaLM, что приближается к ответам, созданным клиницистами. Аналогично, потенциал вреда значительно снижается в ответах Med-PaLM по сравнению с Flan-PaLM.

Оценка ответов Med-PaLM человеком подчеркивает ее высокий уровень в нескольких областях и близость к ответам, созданным клиницистами. Это подчеркивает потенциал Med-PaLM в качестве поддерживающего инструмента в клинических условиях.

Рассмотренное выше исследование углубляет понимание тонкостей улучшения больших моделей языка (LLM) для медицинских приложений. Техники и наблюдения, полученные в ходе исследования, могут быть обобщены, чтобы улучшить возможности LLM в различных областях. Давайте рассмотрим эти ключевые аспекты:

Настройка инструкции улучшает производительность

  • Обобщенное применение: Настройка инструкции, которая включает такие методы, как настройка LLM с использованием конкретных инструкций или рекомендаций, показала значительное улучшение производительности в различных областях. Эта техника может быть применена и в других сферах, таких как юридическая, финансовая или образовательная, для повышения точности и актуальности результатов LLM.

Увеличение размера модели

  • Более широкие применения: Наблюдение о том, что увеличение размера модели улучшает производительность, не ограничивается только ответами на медицинские вопросы. Более крупные модели, с большим количеством параметров, имеют возможность обрабатывать и создавать более тонкие и сложные ответы. Это увеличение масштаба может быть полезно в таких областях, как обслуживание клиентов, креативное письмо и техническая поддержка, где важно иметь тонкое понимание и генерацию ответов.

Поддержка цепочки мыслей (COT)

  • Использование в различных областях: Использование поддержки цепочки мыслей (COT), хотя и не всегда улучшает результаты в медицинских наборах данных, может быть ценным в других областях, где требуется сложное решение проблем. Например, при техническом устранении неисправностей или сложных сценариях принятия решений, COT-поддержка может направлять лингвистические языковые модели на последовательную обработку информации, что приводит к более точным и обоснованным результатам.

Самоконсистентность для повышения точности

  • Более широкие применения: Техника самоконсистентности, при которой генерируются несколько результатов и выбирается наиболее согласованный ответ, может существенно повысить результаты в различных областях. В областях, где точность является важной, например, финансы или юриспруденция, этот метод может использоваться для кросс-проверки сгенерированных результатов и повышения надежности.

Неопределенность и выборочное предсказание

  • Релевантность для разных областей: В полях, где неправильная информация может иметь серьезные последствия, таких как здравоохранение и право, важно сообщать оценки неопределенности. Использование способности лингвистических языковых моделей выражать неопределенность и выбирать предсказания выборочно при низкой уверенности может быть важным инструментом в этих областях для предотвращения распространения неточной информации.

Реальное применение этих моделей выходит за рамки ответа на вопросы. Они могут использоваться для образования пациентов, помощи в диагностических процессах и даже в обучении медицинских студентов. Однако их применение должно быть тщательно управляемым, чтобы избежать полагания на искусственный интеллект без должного контроля со стороны человека.

По мере развития медицинских знаний, лингвистические языковые модели также должны адаптироваться и учиться. Для этого необходимы механизмы для непрерывного обучения и обновления, обеспечивающие актуальность и точность моделей со временем.