Исследователи из Университета Манчестера представляют MentalLLaMA Первую открытую серию ЛЛМ для понятного анализа психического здоровья с возможностью следовать инструкциям.

Ученые из Университета Манчестера представляют MentalLLaMA - первую открытую серию ЛЛМ для понятного анализа психического здоровья с возможностью следовать инструкциям.

Травматический стрессовый синдром (PTSD) и другие проблемы психического здоровья оказывают влияние на общественное здоровье во всем мире. Из-за стигмы многие люди необъективно и своевременно обращаются за психиатрической помощью, что может иметь катастрофические последствия. Социальные медиа всё больше входят в повседневную жизнь людей благодаря развитию онлайн-технологий1. Тексты в социальных медиа являются отличным источником для анализа психического здоровья и возможного вмешательства на ранних стадиях, так как многие люди с вероятными психическими расстройствами используют такие сайты, как Twitter и Reddit, чтобы выражать отрицательные эмоции и стресс. Однако экспоненциально растущий объем сообщений в социальных медиа делает невозможным ручной анализ постов. В результате множество исследований используют подходы обработки естественного языка (NLP) для автоматического анализа социальных медиа на предмет психического здоровья. 

Предыдущие подходы к обработке естественного языка (NLP) для психического здоровья в основном моделировали анализ социальных медиа на предмет психического здоровья как проблемы классификации текста, где дискриминирующие специфичные для области предварительно обученные модели языка (PLM) достигали выдающихся результатов. Одним из их основных недостатков является то, что эти алгоритмы предоставляют прогнозы в черно-белом виде с небольшой возможностью интерпретации, что значительно снижает их надежность при реальном использовании. Недавние исследования оценили эффективность новейших больших языковых моделей (LLMs), включая ChatGPT2 и LLaMA, в выявлении различных психических заболеваний и предоставлении глубоких обоснований своих выборов с использованием подходов на основе цепочки мысли (CoT). Также были проведены обширные тесты с участием людей, чтобы продемонстрировать, что ChatGPT может предоставлять объяснения для своих верных классификаций, сопоставимые с теми, которые предоставляют люди, демонстрируя его потенциал для улучшения чтения анализа психического здоровья. 

Однако в настоящее время ChatGPT не может сравниться с результатами современных алгоритмов с учителем в условиях нулевого или ограниченного количества обучающих данных, что ограничивает его применение в реальных ситуациях. Практический метод заключается в выравнивании фундаментальных LLM с целевой областью путем их предельной настройки на небольшом объеме данных. Развитие LLM для понятного анализа психического здоровья сталкивается с двумя основными преградами. Во-первых, для оптимизации LLM требуются хорошие тренировочные данные. Хотя на нескольких наборах данных для изучения психического здоровья в социальных медиа содержатся краткие выдержки неформального контента, до сих пор отсутствуют открытые данные, предлагающие исчерпывающие и надежные обоснования результатов обнаружения. Деликатная тема и высокая стоимость обоснований, написанных специалистами по предмету, являются главными причинами этого. 

Во-вторых, только несколько открытых LLM для применимого интерпретируемого анализа психического здоровья стали доступны для широкой публики. Однако активация или предельная настройка закрытых LLM, таких как ChatGPT, может быть довольно дорогостоящей3. Рост соответствующего научного сообщества требует улучшения из-за высокой стоимости и нехватки ресурсов. Они создали первый набор данных с инструкциями для понятного анализа психического здоровья с использованием нескольких задач и источников данных с общим объемом 105 тысяч примеров, чтобы закрыть эти пробелы. Сначала они собирают тренировочные данные из 10 существующих источников, охватывающих 8 задач, такие как задачи бинарной детекции психического здоровья, многоклассовая детекция психического здоровья, задачи обнаружения причин и факторов психического здоровья и задачи обнаружения факторов риска и благополучия психического здоровья. 

Рисунок 1 показывает несколько примеров работы MentalLLaMA в различных задачах, включая анализ психического здоровья. Он также содержит информацию о тренировочных данных и основных моделях MentalLLaMA.

Данные, получаемые при сборе, включают сообщения в социальных медиа и их метки. Затем клиенты получают подробное обоснование для каждой метки с аннотациями. Они используют написанные экспертами вопросы с небольшим количеством данных и собранные метки для вдохновения ChatGPT и вызова объяснений от него, черпая вдохновение из успеха self-instruct. Они также автоматически проверяют все полученные данные для обеспечения качества объяснений. Во время этих оценок оценивается точность прогнозов, соответствие между метками и объяснениями, а также общее качество объяснений. С помощью тщательно разработанной стратегии аннотирования со стороны экспертов по предмету проводятся также оценки людей для некоторых из собранных данных. 

Во-первых, они используют правила для преобразования всех собранных сообщений в социальных сетях, меток и объяснений в пары запрос-ответ на основе инструкций. Затем они используют их для создания тренировочных данных и оценочной метрики набора данных IMHI. Исследователи из Университета Манчестера представляют MentalLLaMA, первую открытую серию LLM для понятного анализа психического здоровья с возможностью следования инструкциям на основе набора данных IMHI. Модели LLaMA2 служат основой для обучения моделей MentalLLaMA. Они специально настраивают модели MentalLLaMA-7B, MentalLLaMA-chat-7B и MentalLLaMA-chat-13B. На рисунке 1 показаны некоторые возможности MentalLLaMA.

Кроме того, они тщательно оценивают производительность моделей MentalLLaMA по стандарту оценки IMHI. Они оценивают точность предсказания MentalLLaMA, сравнивая ее результаты классификации с передовыми дискриминативными методами и другими генеративными моделями языка. Согласно результатам, MentalLLaMA-chat-13B демонстрирует большую точность чем или наравне со state-of-the-art моделями на семи из десяти тестовых наборов. Они также оценивают качество создаваемых объяснений. Результаты показывают, что настройка по инструкции, обучение с подкреплением на основе обратной связи от людей (RLHF) и увеличение размеров модели улучшают качество создания объяснений.

Они создали первый набор данных для понятного анализа психического здоровья на основе множественных задач и источников в социальных сетях – набор данных Interpretable Mental Health Instruction (IMHI) с 105,000 примеров. • Они предлагают MentalLLaMA, первую большую модель языка, следующую инструкциям и открытую для использования, способную делать понятный анализ психического здоровья. MentalLLaMA может использовать данные из социальных сетей для анализа психического здоровья и может представить убедительные обоснования для своих выводов. • С использованием 19,000 тестовых примеров, которые включают 8 задач и 10 тестовых наборов, они представляют первый полный стандарт оценки для понятного анализа психического здоровья. На этом бенчмарке они сравнивают MentalLLaMA с текущими используемыми методами. Результаты и анализ показывают, что MentalLLaMA превосходит их, и будущая работа будет сосредоточена на улучшении LLM для понятного анализа психического здоровья.