«Может ли синтетическое создание клинических текстов повернуть клинические задачи NLP в сторону революции? Познакомьтесь с ClinGen Искусственный интеллект, включающий извлечение клинических знаний и контекстно-поддерживаемый LLM-подход».

«Синтетическое создание клинических текстов революционный потенциал для задач NLP. Ознакомьтесь с ClinGen AI - умным искусственным интеллектом, основанным на извлечении клинических знаний и контекстно-поддерживаемом подходе LLM».

Извлечение, анализ и интерпретация медицинских данных из неструктурированной клинической литературы входят в новое направление клинической обработки естественного языка (NLP). Несмотря на свою важность, возникают определенные трудности при разработке методологий для клинической NLP. Например, клинические тексты могут запутать обычные модели NLP, так как они часто полны акронимов и специализированной медицинской терминологии. К счастью, последние достижения в области больших языковых моделей предлагают многообещающее решение этих проблем, так как они предварительно обучаются на больших корпусах и содержат миллиарды параметров, естественным образом улавливая значительную клиническую информацию.

Эти достижения показывают необходимость разработки специфических методов модификации LLM для использования в клинических условиях, обрабатывающих как сложность терминологии, так и улучшение моделей путем донастройки клинических данных. Несмотря на потенциал общих LLM, применение их напрямую для делать выводы о клинических текстовых данных только иногда желательно в реальных условиях. Во-первых, эти LLM часто имеют миллиарды параметров, требующих значительной вычислительной мощности даже во время концепции. В результате возникают высокие инфраструктурные затраты и длительные времена вывода. Чувствительная информация о пациентах в клиническом тексте также вызывает опасения о конфиденциальности и соблюдении регуляторных требований. Создание синтетических тренировочных данных с использованием LLM является потенциальным методом решения этих проблем, поскольку он использует возможности LLM с учетом ресурсозатратности и конфиденциальности.

Модели могут работать на высоком уровне производительности, соблюдая законы о защите данных при обучении на этих искусственных наборах данных, которые воспроизводят клинические данные из реального мира. В общем машинном обучении создание синтетических данных с использованием моделей основы является одной из наиболее распространенных областей исследования. Однако создание клинических данных с использованием LLM, обученных на доступных текстах, имеет свои особые трудности при создании качественных данных, которые следуют исходному распределению набора данных. Для оценки качества данных, полученных с помощью существующих методов, проводится тщательный анализ, сосредоточенный на разнообразии и распределении. Результаты анализа центрального момента различия (CMD) и визуализации вложения t-SNE показывают заметное изменение распределения данных.

Также изучаются количество и частота клинически связанных сущностей в синтетических данных; заметно снижение при сравнении синтетических данных с данными реальных исследований. Хотя несколько исследований исследовали создание клинических данных с использованием языковых моделей, многие из этих инициатив направлены на конкретные задачи. Электронные медицинские записи, клинические примечания, медицинская текстовая разведка и медицинские беседы – некоторые примеры. В этих исследованиях может использоваться избыточное обучающееся в машине значения и часто языковые модели используются напрямую для создания текста. Однако существует только ограниченное количество идей о том, как улучшить способы модификации LLM для создания синтетического текста, который поможет при клинических приложениях.

Вдохновленные вышеупомянутыми исследованиями, исследователи из Университета Эмери и Джорджийского Института Технологии представляют CLINGEN, общую концепцию, обогащенную клиническими знаниями для создания высококачественных клинических текстов в условиях малого числа образцов. Их конечной целью является представление разнообразия тематики в создаваемом тексте и сокращение разрыва между синтетическими и исходными данными. Они предлагают метод использования извлечения клинических знаний для контекстуализации запросов для достижения этой цели. Это включает получение идей для клинической тематики из KG и LLM, а также советы по стилю написания от LLM. Таким образом, CLINGEN соединяет внутреннюю параметрическую информацию, содержащуюся в больших языковых моделях, с непараметрическими идеями из внешних клинических графов знаний.

Важно отметить, что CLINGEN может быть легко использован для различных фундаментальных клинических задач NLP и требует очень мало дополнительной работы. Вот краткое изложение их вклада:

• Для создания клинических текстовых данных в условиях малого числа образцов они предлагают CLINGEN, общую концепцию, обогащенную клиническими данными.

• Они предлагают простой, но эффективный метод использования извлечения клинических знаний для настройки запросов на ориентированные на конкретные задачи клинической NLP, который легко применять к различным задачам в клинической NLP. Это включает получение идей для клинической тематики из KG и LLM, а также советы по стилю написания от LLM.

• Они проводят всесторонний анализ создания синтетических клинических данных с использованием 16 наборов данных и 7 клинических задач NLP. Экспериментальные результаты показывают, что CLINGEN увеличивает разнообразие создаваемых образцов обучения и более тесно соответствует исходному распределению данных. Эмпирическое увеличение производительности (8,98% для PubMedBERTBase и 7,27% для PubMedBERTLarge) согласовано по нескольким задачам с разными LLM и классификаторами.