Эта статья об искусственном интеллекте от Microsoft представляет новый подход к обучению языковых моделей имитирование чтения человеком для повышения эффективности в биомедицине, финансах и праве.

Новый подход компании Microsoft к обучению языковых моделей применение имитации чтения человеком для повышения эффективности в биомедицине, финансах и праве

Была разработана специализированная модель обработки естественного языка, обусловленная перегрузкой общими моделями большого объема. Существуют три основные категории, в которые можно разделить имеющиеся методологии. Первая строит модели с нуля, используя комбинацию общих и особенных для отрасли корпусов. Хотя это естественно приводит к созданию специализированных моделей, большие вычислительные затраты и необходимость обработки данных вызывают серьезные проблемы. Второй метод, более экономичный, улучшает модель языка с использованием данных под наблюдением. Однако нужно определить, насколько хорошо отстроенные модели могут понимать областные знания, которые могут быть использованы во всех областях деятельности, связанных с определенной областью. В третьем случае извлекаемая информация о домене используется для мотивации общей модели языка, что можно рассматривать как применение LLM, а не непосредственное улучшение самой модели LLM.

Исследователи из Microsoft используют предварительное обучение с адаптацией к домену или постоянное предварительное обучение на доменно-специфических корпусах, которое, по их мнению, полезно для настройки различных моделей обработки естественного языка для определенных областей. Сочетая областно-специфические знания с широкими возможностями, этот метод приносит пользу в доменно-специфической деятельности, при этом требуя меньших затрат. Это побуждает их исследования на предмет того, насколько полезно применение предварительного обучения для обширных моделей генерации. Их предварительные эксперименты в трех областях — биологии, финансах и юриспруденции — показали, что дополнительное обучение на исходных корпусах значительно снижает производительность модели при поддержании преимуществ при оценке по настройке и проверке знаний. Это позволяет сделать вывод, что адаптивное предварительное обучение с использованием исходных корпусов, обучает LLM в определенной области, но понижает его способность к подсказке.

Рисунок 1 показывает сжатый пример текста по пониманию чтения. Сырой текст сопровождается рядом задач, построенных на его основе, таких как резюмирование (пурпурное), перевод слов в текст (синее), выводы о естественном языке (красное), здравый смысл (бирюзовое), определение перефразировок (желтое) и завершение текста (зеленое).

Они предлагают простой подход к преобразованию огромных сырых корпусов в тексты понимания чтения, чтобы использовать областно-специфические знания и улучшить возможность подсказки. Каждый сырой текст дополняется несколькими задачами, относящимися к его теме, как показано на рисунке 1. Эти упражнения предназначены для поддержания способности модели реагировать на запросы на естественном языке в зависимости от контекста исходного текста. Для дальнейшего улучшения возможности подсказки они предоставляют разнообразные общие указания для текстов по пониманию чтения. Их тесты в областях биологии, экономики и юриспруденции демонстрируют, насколько хорошо их метод способствует улучшению производительности модели во многих областях деятельности, связанных с определенной отраслью. Окончательная модель, которую они назвали Adapted Large Language Model (AdaptLLM), может быть расширена в будущем, чтобы включить создание общей модели большого языка и расширить область сфер деятельности.

В заключение, их вклад заключается в следующем:

• В исследовании по продолжению предварительного обучения для моделей больших языков они обнаружили, что продолжение обучения модели на специфических для отрасли сырых корпусах может предоставлять областные знания, но серьезно ухудшает ее возможность к подсказке.

• Для эффективного изучения областных знаний при одновременном поддержании возможности подсказки они представляют простой способ превращения огромных сырых корпусов в тексты понимания чтения. Их тесты показывают, что их подход регулярно улучшает производительность модели в трех разных областях: биологии, финансах и юриспруденции.