6 примеров предметно-ориентированных больших языковых моделей

6 примеров больших языковых моделей

Большинство людей, имеющих опыт работы с большими языковыми моделями, такими как Google Bard или OpenAI ChatGPT, работали с общими моделями, не специфичными для отрасли. Но со временем многие отрасли осознали мощь этих моделей. В результате они поняли, что если модели будут донастроены под их отрасль, они могут быть бесценными. Именно поэтому за последние несколько месяцев появилось несколько примеров отраслевых моделей больших языков.

Давайте рассмотрим несколько примеров отраслевых моделей больших языков, как их использует отрасль и почему они вносят разницу.

Право

Представьте себе модель, которая может поглотить огромное количество юридических документов, созданных до сих пор нашей судебной системой, и затем помочь юристам с цитированием дел и другими задачами. Вот что делает CaseHOLD. CaseHOLD – это новый набор данных для задач юридического NLP. Он состоит из более чем 53 000 множественного выбора вопросов, каждый из которых просит определить соответствующее решение цитируемого дела, то есть юридический принцип, установленный цитируемым делом. CaseHOLD представляет собой сложную задачу, так как правильный ответ часто не является явно указанным в цитируемом деле.

Набор данных CaseHOLD был создан для решения проблемы отсутствия масштабных отраслевых наборов данных для юридического NLP. Этот набор данных является ценным ресурсом для исследователей, работающих в области юридического NLP, поскольку он является первым масштабным отраслевым набором данных для этой задачи. Набор данных также является сложным, что позволяет оценить производительность новых моделей NLP.

Биомедицина

Биомедицинская текстовая обработка становится все более важной по мере роста количества биомедицинских документов. Использование стандартных моделей NLP для биомедицинской текстовой обработки часто приводит к неудовлетворительным результатам из-за различий в распределении слов между общими и биомедицинскими корпусами.

Вот где пригодится BioBERT. BioBERT – это модель представления языка, специфичная для отрасли, которая предварительно обучена на большом корпусе биомедицинского текста. Она основана на модели BERT и была донастроена на наборе данных биомедицинского текста. Это позволяет BioBERT узнать уникальные особенности биомедицинского текста, что помогает ему лучше справляться с задачами биомедицинской текстовой обработки.

Финансы

Если существует отрасль, от которой большинство людей в первую очередь ожидает выгоду от отраслевой модели LLM, то это финансы. И уже сейчас BloombergGPT вызывает волнение в отрасли. Что же он делает? Эта модель LLM специально обучена на широком спектре финансовых данных. Это модель с 50 миллиардами параметров, что означает, что она была обучена на огромном наборе данных текста и кода, что позволяет BloombergGPT узнать уникальные особенности финансового языка, что помогает ему лучше справляться с финансовыми задачами по сравнению с LLM, которые не специализированы для этой отрасли.

BloombergGPT может выполнять различные финансовые задачи, включая анализ настроений, распознавание именованных сущностей и ответы на вопросы. Он также показал хорошие результаты на общих бенчмарках LLM, что говорит о том, что это мощная языковая модель, которую можно использовать для различных задач.

Код

По мере роста популярности моделей LLM появилось новое сообщество, посвященное исследованиям и разработке с открытым исходным кодом, и с ним появился StarCoder. StarCoder – это модель LLM, которая стремится автоматизировать некоторые из более рутинных задач, связанных с написанием кода. StarCoder обучен на наборе данных из 1 трлн токенов, собранных из The Stack, который является большой коллекцией репозиториев GitHub с разрешением на использование. Набор данных The Stack включает код на различных языках программирования, что позволяет StarCoder узнать уникальные особенности каждого языка. StarCoder также был донастроен на наборе данных из 35 млрд токенов на Python, что помогает ему хорошо справляться с задачами на Python.

Из-за этого StarCoder огромен, мягко говоря. С 15,5 млрд параметров и контекстной длиной 8K он был обучен на огромном наборе данных текста и кода. Это позволяет StarCoder узнать уникальные особенности языка кода, что помогает ему лучше справляться с задачами, связанными с кодом, чем LLM, не специализированные для этой отрасли.

Медицина

Как и право, медицинская область затоплена бумагами и данными. И здесь на помощь приходит Med-PaLM от Google AI. То, что делает Med-PaLM особенным, заключается в том, что он обучен на огромном наборе данных медицинского текста и кода, что позволяет ему узнать уникальные особенности медицинского языка. Благодаря этому он показал более высокую производительность по сравнению с существующими моделями в различных медицинских задачах, включая ответы на медицинские вопросы, резюмирование медицинского текста, создание медицинских отчетов, идентификацию медицинских сущностей и прогнозирование клинических результатов.

Хотя официально еще не выпущен, тесты показали, что Med-PaLM может быть использована для помощи врачам в диагностике заболеваний, разработке новых методов лечения, персонализированного ухода за пациентами, улучшении образования пациентов и повышении эффективности здравоохранения. Med-PaLM находится на стадии разработки, но имеет потенциал изменить способ предоставления медицинских услуг.

Климат

Однако, если есть одна сфера, о которой многие не задумываются, когда речь идет о LLMs, это климат. Но если мы что-то узнали, то климатология и все данные, производимые исследователями, также могут получить выгоду от LLMs. ClimateBERT – это модель, основанная на трансформерах, которая специально обучена на климатологическом тексте. Она является моделью, предварительно обученной на более чем 2 миллионах абзацев климатологических текстов, собранных из различных источников, таких как общие новости, научные статьи и климатическая отчетность компаний.

В настоящее время ClimateBERT показало более высокую производительность по сравнению с существующими моделями в различных климатологических задачах, таких как классификация текста, анализ настроения и проверка фактов. Также показано, что производительность других моделей NLP улучшается при их настройке на ClimateBERT.

Заключение

Очевидно, что большие модели языка, нацеленные на конкретные отрасли/области, могут раскрывать еще больше преимуществ для тех, кто готов потратить время и изучить эту новую технологию. Однако, поскольку LLMs являются частью быстро развивающейся экосистемы NLP, стандарты, идеи и даже методы быстро меняются.

Так что становится важным быть в курсе всех изменений, связанных с LLMs. И лучшее место для этого – это ODSC West 2023 с 30 октября по 2 ноября. С полной программой, посвященной NLP и LLMs, вы сможете насладиться докладами, сессиями, мероприятиями и многим другим, полностью сфокусированными на этой динамичной области.

Подтвержденные сессии включают:

  • Персонализация LLMs с помощью хранилища функций
  • Понимание ландшафта больших моделей
  • Создание рабочих мест, использующих данные LLMs, над вашими данными с помощью LlamaIndex
  • Общее и эффективное самообучение с использованием data2vec
  • К эксплануруемым и языко-независимым LLMs
  • Настройка LLMs на сообщениях в Slack
  • За пределами демонстраций и прототипов: как создавать готовые к производству приложения с использованием Open-Source LLMs
  • Автоматизация бизнес-процессов с использованием LangChain
  • Соединение больших моделей языка – распространенные проблемы и вызовы

Чего вы ждете? Получите свой билет сегодня!