Tехники автоматической суммаризации документов с использованием языковых моделей

Техники автоматической суммаризации документов с применением языковых моделей

Сжатие текста является техникой конденсации большого объема информации в компактную и значимую форму, и является основой эффективного общения в наш век информационного перенасыщения. В мире, полном данных, сжатие длинных текстов в краткие резюме позволяет экономить время и делать обоснованные решения. Сжатие текста упрощает содержание, экономит время и улучшает ясность, представляя информацию лаконично и последовательно. Сжатие текста неоценимо для принятия решений и управления большим объемом контента.

Методы сжатия текста имеют широкий спектр применений для различных целей, таких как:

  • Агрегация новостейАгрегация новостей включает сжатие новостных статей в информационный бюллетень для медиа-индустрии
  • Сжатие юридических документовСжатие юридических документов помогает юристам извлекать ключевую юридическую информацию из длинных документов, таких как условия, контракты и соглашения
  • Академические исследования – Сжатие текста аннотирует, индексирует, упрощает и уплотняет важную информацию из академических статей
  • Кураторство контента для блогов и веб-сайтов – Вы можете создавать привлекательные и оригинальные резюме для читателей, особенно в маркетинге
  • Финансовые отчеты и анализ рынков – Вы можете извлекать финансовые выводы из отчетов и создавать краткие резюме для инвестиционных презентаций в финансовой отрасли

С развитием обработки естественного языка (NLP), языковых моделей и генеративного ИИ сжатие текстов различной длины стало более доступным. Инструменты, такие как LangChain, совмещенные с мощной языковой моделью (LLM), работающей на Amazon Bedrock или Amazon SageMaker JumpStart, упрощают процесс реализации.

В этом посте рассматриваются следующие методики сжатия текста:

  • Экстрактивное сжатие с использованием BERT-экстракционного сумматора
  • Абстрактивное сжатие с использованием специализированных моделей суммирования и LLM
  • Две многоуровневые методики сжатия:
    • Экстрактивно-абстрактивное сжатие с использованием стратегии экстрактивно-абстрактивного суммирования контента (EACSS)
    • Абстрактивно-абстрактивное сжатие с использованием Map Reduce и Map ReRank
Техники сжатия текста

Полный образец кода можно найти в репозитории GitHub. Вы можете запустить это решение в Amazon SageMaker Studio.

Нажмите здесь, чтобы открыть консоль AWS и продолжить.

Типы сжатия текста

Существует несколько техник сжатия текста, которые широко классифицируются на два основных подхода: экстрактивное и абстрактивное сжатие. Кроме того, многоуровневые методы сжатия включают ряд шагов, сочетающих как экстрактивные, так и абстрактивные техники. Эти многоуровневые подходы полезны при работе с текстом, содержащим токены превышающие предельное значение LLM, что позволяет понять сложные повествования.

Извлекающее краткое изложение

Извлекающее краткое изложение – это техника, используемая в NLP и текстовом анализе для создания краткого изложения путем извлечения ключевых предложений. В отличие от абстрактного краткого изложения, которое генерирует новые предложения или контент, извлекающее краткое изложение опирается на определение и выделение наиболее релевантных и информативных частей исходного текста для создания сжатой версии.

Извлекающее краткое изложение, хотя и имеет преимущества в сохранении оригинального контента и обеспечении высокой читаемости путем непосредственного извлечения важных предложений из исходного текста, имеет свои ограничения. Оно лишено креативности, не способно генерировать новые предложения и может упускать детали, что потенциально ведет к упущению важной информации. Более того, оно может производить длинные краткие изложения, иногда перегружая читателей избыточной и нежелательной информацией. Существует множество техник извлекающего краткого изложения, таких как TextRank и LexRank. В этой статье мы сосредоточимся на извлекающем сумматоре BERT.

Извлекающий сумматор BERT

Извлекающий сумматор BERT – это тип модели извлекающего краткого изложения, который использует языковую модель BERT для извлечения наиболее важных предложений из текста. BERT – предварительно обученная языковая модель, которую можно настраивать для различных задач, включая краткое изложение текста. Он работает, во-первых, с вложением предложений в текст с использованием BERT. Это производит векторное представление для каждого предложения, в котором запечатлены его значение и контекст. Затем модель использует алгоритм кластеризации, чтобы сгруппировать предложения в кластеры. Для формирования краткого изложения выбираются предложения, наиболее близкие к центру каждого кластера.

По сравнению с LLM, преимущество извлекающего сумматора BERT заключается в его относительной простоте тренировки и развертывания модели, а также в ее объяснимости. Недостатком является то, что суммирование не является креативным и не генерирует предложения, а только выбирает предложения из оригинального текста. Это ограничивает его способность кратко излагать сложные или тонкие тексты.

Абстрактное краткое изложение

Абстрактное краткое изложение – это техника, используемая в NLP и текстовом анализе для создания краткого изложения, которое выходит за рамки простого извлечения предложений или фраз из исходного текста. Вместо выбора и переупорядочения существующего контента абстрактное краткое изложение создает новые предложения или фразы, которые передают основное значение и главные идеи оригинального текста в более сжатой и связной форме. Для этого модель должна понимать содержание текста и выражать его таким образом, которого может не быть в исходном материале.

Специализированные модели краткого изложения

Эти модели естественного языка, такие как BART и PEGASUS, предварительно обучены для задач краткого изложения текста. Они используют архитектуры энкодер-декодер и имеют меньшее количество параметров по сравнению с аналогичными моделями. Это сокращенный размер позволяет легче настраивать и развертывать их на более маленьких экземплярах. Однако стоит отметить, что эти модели для краткого изложения также имеют меньшие размеры входных и выходных токенов. В отличие от их более универсальных аналогов, эти модели предназначены исключительно для задач краткого изложения. В результате для использования этих моделей требуется только текст, который должен быть кратко изложен.

Большие языковые модели

Большая языковая модель – это любая модель, которая проходит обучение на обширных и разнообразных наборах данных, обычно с помощью масштабной самообучающейся обучения, и может быть настроена для различных конкретных подзадач. Эти модели имеют большее количество параметров и лучше выполняют задачи. Они также отличаются существенно большими размерами входных токенов, некоторые достигают 100 000, например, Claude от Anthropic. Для использования одной из этих моделей AWS предлагает испытанную и полностью управляемую службу Amazon Bedrock. Если вам нужно больше контроля над жизненным циклом разработки модели, вы можете развернуть LLM с помощью SageMaker.

Исходя из их универсальной природы, эти модели требуют конкретных инструкций для задачи, предоставляемых через входной текст, практику, которую называют prompt engineering. Этот творческий процесс дает различные результаты в зависимости от типа модели и входного текста. Качество как производительности модели, так и качество подсказки существенно влияют на окончательное качество выводов модели. Вот несколько советов по созданию подсказок для краткого изложения:

  • Включение текста для резюме – Введите текст, который нужно резюмировать. Это служит в качестве исходного материала для резюме.
  • Определите задачу – Четко укажите, что целью является резюмирование текста. Например, «Резюмируйте следующий текст: [входной текст].»
  • Предоставить контекст – Предложите краткое введение или контекст для данного текста, который нужно резюмировать. Это помогает модели понять содержание и контекст. Например, «Вам дана следующая статья об искусственном интеллекте и его роли в здравоохранении: [входной текст].»
  • Запросить резюме – Попросите модель сгенерировать резюме предоставленного текста. Будьте ясны относительно желаемой длины или формата резюме. Например, «Пожалуйста, сгенерируйте краткое резюме данной статьи об искусственном интеллекте и его роли в здравоохранении: [входной текст].»
  • Установите ограничения или руководства по длине – При желании определите желаемую длину резюме, указав количество слов, предложений или ограничение по количеству символов. Например, «Пожалуйста, сгенерируйте резюме, не превышающее 50 слов: [входной текст].»

Эффективное проектирование запросов критично для обеспечения точности, актуальности и соответствия задаче резюмирования. Уточните запрос для достижения оптимального результата с помощью экспериментов и итераций. После установления эффективности запросов вы можете повторно использовать их с помощью шаблонов запросов.

Многоуровневое резюмирование

Экстрактивное и абстрактивное резюмирование полезно для коротких текстов. Однако, когда входной текст превышает максимальный лимит токенов модели, становится необходимым многоуровневое резюмирование. Многоуровневое резюмирование предполагает комбинирование различных техник резюмирования, таких как экстрактивные и абстрактивные методы, для эффективного сокращения более длинных текстов путем применения нескольких уровней процессов резюмирования. В этом разделе мы рассмотрим две техники многоуровневого резюмирования: экстрактивно-абстрактивное резюмирование и абстрактивно-абстрактивное резюмирование.

Экстрактивно-абстрактивное резюмирование

Экстрактивно-абстрактивное резюмирование сначала создает экстрактивное резюме текста. Затем это использует систему абстрактивного резюмирования для уточнения экстрактивного резюме, делая его более кратким и информативным. Это улучшает точность, предоставляя более информативные резюме по сравнению только с экстрактивными методами.

Стратегия экстрактивно-абстрактивного резюмирования контента

Техника EACSS сочетает в себе преимущества двух мощных методов: BERT экстрактивного суммаризатора для экстрактивной фазы и LLM для абстрактивной фазы, как показано на следующей диаграмме.

Экстрактивно-абстрактивное резюмирование текста

EACSS имеет несколько преимуществ, включая сохранение важной информации, улучшенную читаемость и адаптивность. Однако реализация EACSS является вычислительно затратной и сложной. Есть риск потенциальной потери информации, и качество резюмирования сильно зависит от производительности базовых моделей, что делает тщательный выбор и настройку модели необходимыми для достижения оптимальных результатов. Реализация включает следующие шаги:

  1. Первый шаг заключается в разбивке большого документа, такого как книга, на более мелкие разделы или куски. Эти куски определяются как предложения, абзацы или даже главы, в зависимости от желаемой гранулярности резюме.
  2. Для экстрактивной фазы мы используем BERT экстрактивный суммаризатор. Этот компонент работает путем вложения предложений в каждом куске, а затем использует кластеризационный алгоритм для определения предложений, наиболее близких к центроидам кластера. Этот экстрактивный шаг помогает сохранить самую важную и актуальную информацию из каждого куска.
  3. После генерации экстрактивных резюме для каждого куска мы переходим к фазе абстрактивного резюмирования. Здесь мы используем LLM, известные своей способностью генерировать когерентные и контекстуально связанные резюме. Эти модели берут экстрактивные резюме в качестве входных данных и создают абстрактивные резюме, которые передают суть оригинального документа, обеспечивая при этом читаемость и связность.

Путем комбинирования методов извлечения и абстрактной резюмирования, данная подход предлагает эффективный и всесторонний способ резюмирования длинных документов, таких как книги. Он гарантирует извлечение важной информации, а также генерацию кратких и удобочитаемых резюме, делая его ценным инструментом для различных приложений в области резюмирования документов.

Абстрактное резюмирование

Абстрактное резюмирование – это подход, при котором абстрактные методы используются как для извлечения, так и для генерации резюме. Он предлагает значительные преимущества, включая улучшенную читаемость, связность и гибкость настройки длины и деталей резюме. Он отличается в генерации текста, позволяющей парафразировать и избегать избыточности. Однако есть и недостатки. Например, он требует высокие вычислительные затраты и ресурсоемкий, и его качество в значительной степени зависит от эффективности базовых моделей, которые, если они не обучены или не универсальны, могут повлиять на качество сгенерированных резюме. Выбор моделей критичен для смягчения этих проблем и обеспечения высококачественных абстрактных резюме. Для абстрактного резюмирования мы обсуждаем две стратегии: Map Reduce и Map ReRank.

Map Reduce с использованием LangChain

Этот двухэтапный процесс состоит из этапа ассоциации и этапа сокращения, как показано на следующей диаграмме. Эта техника позволяет вам резюмировать вход, который длиннее лимита токенов модели.

Карта сокращения абстрактного текста

Процесс состоит из трех основных шагов:

  1. Корпус разбивается на меньшие фрагменты, которые соответствуют лимиту токенов LLM.
  2. Мы используем этап ассоциации, чтобы независимо применить цепочку LLM, извлекая важную информацию из каждого фрагмента, и его вывод используется в качестве нового фрагмента. В зависимости от размера и структуры корпуса это может быть в виде общих тем или кратких резюме.
  3. Этап сокращения объединяет выводные фрагменты с этапа ассоциации или сокращения так, чтобы они соответствовали лимиту токенов и передавались в LLM. Этот процесс повторяется до тех пор, пока конечным результатом является одиночный фрагмент.

Преимущество использования этой техники заключается в ее высокой масштабируемости и параллелизуемости. Весь процесс в каждом шаге независим от других, что позволяет использовать распределенные системы или безсерверные сервисы и сократить вычислительное время.

Map ReRank с использованием LangChain

Эта цепочка выполняет исходный запрос для каждого документа, которая не только пытается выполнить задачу, но также дает оценку насколько уверена в своем ответе. Возвращается ответ с самым высоким баллом.

Эта техника очень похожа на Map Reduce, но имеет преимущество в том, что она требует меньшего общего числа вызовов, упрощая процесс резюмирования. Однако ее ограничение заключается в невозможности объединения информации из нескольких документов. Это ограничение делает ее наиболее эффективной в сценариях, где ожидается единственный, прямолинейный ответ от одиночного документа, что делает ее менее подходящей для более сложных или многоаспектных задач по извлечению информации, которые включают несколько источников. Внимательное рассмотрение контекста и характера данных необходимо для определения соответствия этого метода конкретным потребностям в резюмировании.

Cohere ReRank использует реранк-систему на основе семантики, которая контекстуализирует значение запроса пользователя за пределами ключевых слов. Его используют с векторными хранилищами, а также с поисковыми системами на основе ключевых слов, что дает ему гибкость.

Сравнение техник резюмирования

Каждая техника резюмирования имеет свои собственные преимущества и недостатки:

  • Извлекающее резюмирование сохраняет оригинальный контент и обеспечивает высокую читаемость, но лишено креативности и может производить длинные резюме.
  • Абстрактное резюмирование, предлагая креативность и генерацию лаконичных, свободных текстов резюме, сопровождается риском непреднамеренной модификации контента, трудностями с точностью языка и ресурсоемким разработкой.
  • Извлекающе-абстрактное многоуровневое резюмирование эффективно резюмирует большие документы и обеспечивает лучшую гибкость в настройке извлекающей части моделей. Однако это дорогостояще, требует много времени и не имеет параллелизации, что делает сложным подгонку параметров.
  • Абстрактное-абстрактное многоуровневое резюмирование также эффективно резюмирует большие документы и отличается улучшенной читаемостью и связностью. Однако это требует высоких вычислительных затрат и ресурсоемкости, полностью зависит от эффективности базовых моделей.

Тщательный выбор модели является важным для смягчения проблем и обеспечения высококачественных абстрактных резюме в этом подходе. Нижеприведенная таблица суммирует возможности каждого типа суммирования.

Аспект Извлекающее суммирование Абстрактное суммирование Многоуровневое суммирование
Генерация креативных и увлекательных резюме Нет Да Да
Сохранение оригинального содержания Да Нет Нет
Баланс сохранения информации и творчества Нет Да Да
Подходит для краткого, объективного текста (длина входного текста меньше максимального количества токенов модели) Да Да Нет
Эффективен для более длинных и сложных документов, таких как книги (длина входного текста больше максимального количества токенов модели) Нет Нет Да
Комбинирует извлечение и генерацию содержания Нет Нет Да

Многоуровневые техники суммирования подходят для длинных и сложных документов, где длина входного текста превышает ограничение на количество токенов модели. Нижеприведенная таблица сравнивает эти техники.

Техника Преимущества Недостатки
EACSS (извлекающе-абстрактное) Сохраняет важную информацию, позволяет настраивать извлекающую часть моделей. Требует больших вычислительных ресурсов, потенциальная потеря информации, отсутствие параллелизации.
Map Reduce (абстрактное-абстрактное) Масштабируемый и параллелизуемый, с меньшим временем вычислений. Лучшая техника для генерации креативных и лаконичных резюме. Интенсивный процесс использования памяти.
Map ReRank (абстрактное-абстрактное) Упрощенное суммирование с ранжированием на основе семантики. Ограничение на объединение информации.

Советы по суммированию текста

Учтите следующие лучшие практики при суммировании текста:

  • Будьте внимательны к общему размеру токенов – Будьте готовы разделять текст, если он превышает ограничения на количество токенов модели или используйте многоуровневый подход суммирования при использовании LLMs.
  • Будьте внимательны к типам и количеству источников данных – Комбинирование информации из нескольких источников может потребовать преобразований, ясной организации и стратегий интеграции. LangChain Stuff имеет интеграцию с широким спектром источников данных и типов документов. Это упрощает процесс объединения текста из разных документов и источников данных с использованием данной техники.
  • Будьте внимательны к специализации модели – Некоторые модели могут отличаться в определенных типах контента, но испытывают трудности с другими. Могут существовать настроенные модели, которые лучше подходят для вашей сферы текста.
  • Используйте многоуровневое суммирование для больших объемов текста – Для текстов, превышающих ограничения на количество токенов, рассмотрите применение многоуровневого подхода суммирования. Начните с общего резюме, чтобы охватить основные идеи, а затем постепенно суммируйте подразделы или главы для получения более подробных выводов.
  • Суммируйте текст по темам – Этот подход помогает сохранить логическую структуру и снизить потерю информации, а также приоритизирует сохранение важной информации. Если вы используете LLMs, создавайте четкие и конкретные подсказки, которые направляют модель на суммирование конкретной темы, а не всего текста в целом.

Заключение

Суммирование является важным инструментом в нашу эпоху информации, позволяющим эффективно усиливать обширную информацию в краткой и значимой форме. Оно играет ключевую роль в различных областях и предлагает множество преимуществ. Суммирование экономит время, передавая важное содержание из длинных документов, помогает в принятии решений путем извлечения критической информации и повышает усвоение знаний в образовании и организации контента.

В этом сообщении представлен всесторонний обзор различных методов суммирования, включая выделяющий, абстрактный и многоуровневый подходы. С помощью таких инструментов, как LangChain и языковые модели, вы можете использовать мощь суммирования, чтобы упростить коммуникацию, улучшить процесс принятия решений и раскрыть полный потенциал обширных информационных репозиториев. Таблица сравнения в этой записи может помочь вам определить наиболее подходящие методы суммирования для ваших проектов. Кроме того, советы, представленные в записи, служат ценным руководством, чтобы избежать повторяющихся ошибок при экспериментировании с LLM для суммирования текста. Это практический совет позволяет вам применить полученные знания, обеспечивая успешное и эффективное суммирование в проектах.

Ссылки