Tехники автоматической суммаризации документов с использованием языковых моделей
Техники автоматической суммаризации документов с применением языковых моделей
Сжатие текста является техникой конденсации большого объема информации в компактную и значимую форму, и является основой эффективного общения в наш век информационного перенасыщения. В мире, полном данных, сжатие длинных текстов в краткие резюме позволяет экономить время и делать обоснованные решения. Сжатие текста упрощает содержание, экономит время и улучшает ясность, представляя информацию лаконично и последовательно. Сжатие текста неоценимо для принятия решений и управления большим объемом контента.
Методы сжатия текста имеют широкий спектр применений для различных целей, таких как:
- Агрегация новостей – Агрегация новостей включает сжатие новостных статей в информационный бюллетень для медиа-индустрии
- Сжатие юридических документов – Сжатие юридических документов помогает юристам извлекать ключевую юридическую информацию из длинных документов, таких как условия, контракты и соглашения
- Академические исследования – Сжатие текста аннотирует, индексирует, упрощает и уплотняет важную информацию из академических статей
- Кураторство контента для блогов и веб-сайтов – Вы можете создавать привлекательные и оригинальные резюме для читателей, особенно в маркетинге
- Финансовые отчеты и анализ рынков – Вы можете извлекать финансовые выводы из отчетов и создавать краткие резюме для инвестиционных презентаций в финансовой отрасли
С развитием обработки естественного языка (NLP), языковых моделей и генеративного ИИ сжатие текстов различной длины стало более доступным. Инструменты, такие как LangChain, совмещенные с мощной языковой моделью (LLM), работающей на Amazon Bedrock или Amazon SageMaker JumpStart, упрощают процесс реализации.
В этом посте рассматриваются следующие методики сжатия текста:
- Что выбрать между Расширенным Генерированием с возвратом (RAG) и Тонкой Настройкой?
- Лама 2 Подробное объяснение большой языковой модели Meta!
- Преобразование услуг BFSI с использованием возможностей генеративного искусственного интеллекта в GCP
- Экстрактивное сжатие с использованием BERT-экстракционного сумматора
- Абстрактивное сжатие с использованием специализированных моделей суммирования и LLM
- Две многоуровневые методики сжатия:
- Экстрактивно-абстрактивное сжатие с использованием стратегии экстрактивно-абстрактивного суммирования контента (EACSS)
- Абстрактивно-абстрактивное сжатие с использованием Map Reduce и Map ReRank
Полный образец кода можно найти в репозитории GitHub. Вы можете запустить это решение в Amazon SageMaker Studio.
Нажмите здесь, чтобы открыть консоль AWS и продолжить.
Типы сжатия текста
Существует несколько техник сжатия текста, которые широко классифицируются на два основных подхода: экстрактивное и абстрактивное сжатие. Кроме того, многоуровневые методы сжатия включают ряд шагов, сочетающих как экстрактивные, так и абстрактивные техники. Эти многоуровневые подходы полезны при работе с текстом, содержащим токены превышающие предельное значение LLM, что позволяет понять сложные повествования.
Извлекающее краткое изложение
Извлекающее краткое изложение – это техника, используемая в NLP и текстовом анализе для создания краткого изложения путем извлечения ключевых предложений. В отличие от абстрактного краткого изложения, которое генерирует новые предложения или контент, извлекающее краткое изложение опирается на определение и выделение наиболее релевантных и информативных частей исходного текста для создания сжатой версии.
Извлекающее краткое изложение, хотя и имеет преимущества в сохранении оригинального контента и обеспечении высокой читаемости путем непосредственного извлечения важных предложений из исходного текста, имеет свои ограничения. Оно лишено креативности, не способно генерировать новые предложения и может упускать детали, что потенциально ведет к упущению важной информации. Более того, оно может производить длинные краткие изложения, иногда перегружая читателей избыточной и нежелательной информацией. Существует множество техник извлекающего краткого изложения, таких как TextRank и LexRank. В этой статье мы сосредоточимся на извлекающем сумматоре BERT.
Извлекающий сумматор BERT
Извлекающий сумматор BERT – это тип модели извлекающего краткого изложения, который использует языковую модель BERT для извлечения наиболее важных предложений из текста. BERT – предварительно обученная языковая модель, которую можно настраивать для различных задач, включая краткое изложение текста. Он работает, во-первых, с вложением предложений в текст с использованием BERT. Это производит векторное представление для каждого предложения, в котором запечатлены его значение и контекст. Затем модель использует алгоритм кластеризации, чтобы сгруппировать предложения в кластеры. Для формирования краткого изложения выбираются предложения, наиболее близкие к центру каждого кластера.
По сравнению с LLM, преимущество извлекающего сумматора BERT заключается в его относительной простоте тренировки и развертывания модели, а также в ее объяснимости. Недостатком является то, что суммирование не является креативным и не генерирует предложения, а только выбирает предложения из оригинального текста. Это ограничивает его способность кратко излагать сложные или тонкие тексты.
Абстрактное краткое изложение
Абстрактное краткое изложение – это техника, используемая в NLP и текстовом анализе для создания краткого изложения, которое выходит за рамки простого извлечения предложений или фраз из исходного текста. Вместо выбора и переупорядочения существующего контента абстрактное краткое изложение создает новые предложения или фразы, которые передают основное значение и главные идеи оригинального текста в более сжатой и связной форме. Для этого модель должна понимать содержание текста и выражать его таким образом, которого может не быть в исходном материале.
Специализированные модели краткого изложения
Эти модели естественного языка, такие как BART и PEGASUS, предварительно обучены для задач краткого изложения текста. Они используют архитектуры энкодер-декодер и имеют меньшее количество параметров по сравнению с аналогичными моделями. Это сокращенный размер позволяет легче настраивать и развертывать их на более маленьких экземплярах. Однако стоит отметить, что эти модели для краткого изложения также имеют меньшие размеры входных и выходных токенов. В отличие от их более универсальных аналогов, эти модели предназначены исключительно для задач краткого изложения. В результате для использования этих моделей требуется только текст, который должен быть кратко изложен.
Большие языковые модели
Большая языковая модель – это любая модель, которая проходит обучение на обширных и разнообразных наборах данных, обычно с помощью масштабной самообучающейся обучения, и может быть настроена для различных конкретных подзадач. Эти модели имеют большее количество параметров и лучше выполняют задачи. Они также отличаются существенно большими размерами входных токенов, некоторые достигают 100 000, например, Claude от Anthropic. Для использования одной из этих моделей AWS предлагает испытанную и полностью управляемую службу Amazon Bedrock. Если вам нужно больше контроля над жизненным циклом разработки модели, вы можете развернуть LLM с помощью SageMaker.
Исходя из их универсальной природы, эти модели требуют конкретных инструкций для задачи, предоставляемых через входной текст, практику, которую называют prompt engineering. Этот творческий процесс дает различные результаты в зависимости от типа модели и входного текста. Качество как производительности модели, так и качество подсказки существенно влияют на окончательное качество выводов модели. Вот несколько советов по созданию подсказок для краткого изложения:
- Включение текста для резюме – Введите текст, который нужно резюмировать. Это служит в качестве исходного материала для резюме.
- Определите задачу – Четко укажите, что целью является резюмирование текста. Например, «Резюмируйте следующий текст: [входной текст].»
- Предоставить контекст – Предложите краткое введение или контекст для данного текста, который нужно резюмировать. Это помогает модели понять содержание и контекст. Например, «Вам дана следующая статья об искусственном интеллекте и его роли в здравоохранении: [входной текст].»
- Запросить резюме – Попросите модель сгенерировать резюме предоставленного текста. Будьте ясны относительно желаемой длины или формата резюме. Например, «Пожалуйста, сгенерируйте краткое резюме данной статьи об искусственном интеллекте и его роли в здравоохранении: [входной текст].»
- Установите ограничения или руководства по длине – При желании определите желаемую длину резюме, указав количество слов, предложений или ограничение по количеству символов. Например, «Пожалуйста, сгенерируйте резюме, не превышающее 50 слов: [входной текст].»
Эффективное проектирование запросов критично для обеспечения точности, актуальности и соответствия задаче резюмирования. Уточните запрос для достижения оптимального результата с помощью экспериментов и итераций. После установления эффективности запросов вы можете повторно использовать их с помощью шаблонов запросов.
Многоуровневое резюмирование
Экстрактивное и абстрактивное резюмирование полезно для коротких текстов. Однако, когда входной текст превышает максимальный лимит токенов модели, становится необходимым многоуровневое резюмирование. Многоуровневое резюмирование предполагает комбинирование различных техник резюмирования, таких как экстрактивные и абстрактивные методы, для эффективного сокращения более длинных текстов путем применения нескольких уровней процессов резюмирования. В этом разделе мы рассмотрим две техники многоуровневого резюмирования: экстрактивно-абстрактивное резюмирование и абстрактивно-абстрактивное резюмирование.
Экстрактивно-абстрактивное резюмирование
Экстрактивно-абстрактивное резюмирование сначала создает экстрактивное резюме текста. Затем это использует систему абстрактивного резюмирования для уточнения экстрактивного резюме, делая его более кратким и информативным. Это улучшает точность, предоставляя более информативные резюме по сравнению только с экстрактивными методами.
Стратегия экстрактивно-абстрактивного резюмирования контента
Техника EACSS сочетает в себе преимущества двух мощных методов: BERT экстрактивного суммаризатора для экстрактивной фазы и LLM для абстрактивной фазы, как показано на следующей диаграмме.
EACSS имеет несколько преимуществ, включая сохранение важной информации, улучшенную читаемость и адаптивность. Однако реализация EACSS является вычислительно затратной и сложной. Есть риск потенциальной потери информации, и качество резюмирования сильно зависит от производительности базовых моделей, что делает тщательный выбор и настройку модели необходимыми для достижения оптимальных результатов. Реализация включает следующие шаги:
- Первый шаг заключается в разбивке большого документа, такого как книга, на более мелкие разделы или куски. Эти куски определяются как предложения, абзацы или даже главы, в зависимости от желаемой гранулярности резюме.
- Для экстрактивной фазы мы используем BERT экстрактивный суммаризатор. Этот компонент работает путем вложения предложений в каждом куске, а затем использует кластеризационный алгоритм для определения предложений, наиболее близких к центроидам кластера. Этот экстрактивный шаг помогает сохранить самую важную и актуальную информацию из каждого куска.
- После генерации экстрактивных резюме для каждого куска мы переходим к фазе абстрактивного резюмирования. Здесь мы используем LLM, известные своей способностью генерировать когерентные и контекстуально связанные резюме. Эти модели берут экстрактивные резюме в качестве входных данных и создают абстрактивные резюме, которые передают суть оригинального документа, обеспечивая при этом читаемость и связность.
Путем комбинирования методов извлечения и абстрактной резюмирования, данная подход предлагает эффективный и всесторонний способ резюмирования длинных документов, таких как книги. Он гарантирует извлечение важной информации, а также генерацию кратких и удобочитаемых резюме, делая его ценным инструментом для различных приложений в области резюмирования документов.
Абстрактное резюмирование
Абстрактное резюмирование – это подход, при котором абстрактные методы используются как для извлечения, так и для генерации резюме. Он предлагает значительные преимущества, включая улучшенную читаемость, связность и гибкость настройки длины и деталей резюме. Он отличается в генерации текста, позволяющей парафразировать и избегать избыточности. Однако есть и недостатки. Например, он требует высокие вычислительные затраты и ресурсоемкий, и его качество в значительной степени зависит от эффективности базовых моделей, которые, если они не обучены или не универсальны, могут повлиять на качество сгенерированных резюме. Выбор моделей критичен для смягчения этих проблем и обеспечения высококачественных абстрактных резюме. Для абстрактного резюмирования мы обсуждаем две стратегии: Map Reduce и Map ReRank.
Map Reduce с использованием LangChain
Этот двухэтапный процесс состоит из этапа ассоциации и этапа сокращения, как показано на следующей диаграмме. Эта техника позволяет вам резюмировать вход, который длиннее лимита токенов модели.
Процесс состоит из трех основных шагов:
- Корпус разбивается на меньшие фрагменты, которые соответствуют лимиту токенов LLM.
- Мы используем этап ассоциации, чтобы независимо применить цепочку LLM, извлекая важную информацию из каждого фрагмента, и его вывод используется в качестве нового фрагмента. В зависимости от размера и структуры корпуса это может быть в виде общих тем или кратких резюме.
- Этап сокращения объединяет выводные фрагменты с этапа ассоциации или сокращения так, чтобы они соответствовали лимиту токенов и передавались в LLM. Этот процесс повторяется до тех пор, пока конечным результатом является одиночный фрагмент.
Преимущество использования этой техники заключается в ее высокой масштабируемости и параллелизуемости. Весь процесс в каждом шаге независим от других, что позволяет использовать распределенные системы или безсерверные сервисы и сократить вычислительное время.
Map ReRank с использованием LangChain
Эта цепочка выполняет исходный запрос для каждого документа, которая не только пытается выполнить задачу, но также дает оценку насколько уверена в своем ответе. Возвращается ответ с самым высоким баллом.
Эта техника очень похожа на Map Reduce, но имеет преимущество в том, что она требует меньшего общего числа вызовов, упрощая процесс резюмирования. Однако ее ограничение заключается в невозможности объединения информации из нескольких документов. Это ограничение делает ее наиболее эффективной в сценариях, где ожидается единственный, прямолинейный ответ от одиночного документа, что делает ее менее подходящей для более сложных или многоаспектных задач по извлечению информации, которые включают несколько источников. Внимательное рассмотрение контекста и характера данных необходимо для определения соответствия этого метода конкретным потребностям в резюмировании.
Cohere ReRank использует реранк-систему на основе семантики, которая контекстуализирует значение запроса пользователя за пределами ключевых слов. Его используют с векторными хранилищами, а также с поисковыми системами на основе ключевых слов, что дает ему гибкость.
Сравнение техник резюмирования
Каждая техника резюмирования имеет свои собственные преимущества и недостатки:
- Извлекающее резюмирование сохраняет оригинальный контент и обеспечивает высокую читаемость, но лишено креативности и может производить длинные резюме.
- Абстрактное резюмирование, предлагая креативность и генерацию лаконичных, свободных текстов резюме, сопровождается риском непреднамеренной модификации контента, трудностями с точностью языка и ресурсоемким разработкой.
- Извлекающе-абстрактное многоуровневое резюмирование эффективно резюмирует большие документы и обеспечивает лучшую гибкость в настройке извлекающей части моделей. Однако это дорогостояще, требует много времени и не имеет параллелизации, что делает сложным подгонку параметров.
- Абстрактное-абстрактное многоуровневое резюмирование также эффективно резюмирует большие документы и отличается улучшенной читаемостью и связностью. Однако это требует высоких вычислительных затрат и ресурсоемкости, полностью зависит от эффективности базовых моделей.
Тщательный выбор модели является важным для смягчения проблем и обеспечения высококачественных абстрактных резюме в этом подходе. Нижеприведенная таблица суммирует возможности каждого типа суммирования.
Аспект | Извлекающее суммирование | Абстрактное суммирование | Многоуровневое суммирование |
Генерация креативных и увлекательных резюме | Нет | Да | Да |
Сохранение оригинального содержания | Да | Нет | Нет |
Баланс сохранения информации и творчества | Нет | Да | Да |
Подходит для краткого, объективного текста (длина входного текста меньше максимального количества токенов модели) | Да | Да | Нет |
Эффективен для более длинных и сложных документов, таких как книги (длина входного текста больше максимального количества токенов модели) | Нет | Нет | Да |
Комбинирует извлечение и генерацию содержания | Нет | Нет | Да |
Многоуровневые техники суммирования подходят для длинных и сложных документов, где длина входного текста превышает ограничение на количество токенов модели. Нижеприведенная таблица сравнивает эти техники.
Техника | Преимущества | Недостатки |
EACSS (извлекающе-абстрактное) | Сохраняет важную информацию, позволяет настраивать извлекающую часть моделей. | Требует больших вычислительных ресурсов, потенциальная потеря информации, отсутствие параллелизации. |
Map Reduce (абстрактное-абстрактное) | Масштабируемый и параллелизуемый, с меньшим временем вычислений. Лучшая техника для генерации креативных и лаконичных резюме. | Интенсивный процесс использования памяти. |
Map ReRank (абстрактное-абстрактное) | Упрощенное суммирование с ранжированием на основе семантики. | Ограничение на объединение информации. |
Советы по суммированию текста
Учтите следующие лучшие практики при суммировании текста:
- Будьте внимательны к общему размеру токенов – Будьте готовы разделять текст, если он превышает ограничения на количество токенов модели или используйте многоуровневый подход суммирования при использовании LLMs.
- Будьте внимательны к типам и количеству источников данных – Комбинирование информации из нескольких источников может потребовать преобразований, ясной организации и стратегий интеграции. LangChain Stuff имеет интеграцию с широким спектром источников данных и типов документов. Это упрощает процесс объединения текста из разных документов и источников данных с использованием данной техники.
- Будьте внимательны к специализации модели – Некоторые модели могут отличаться в определенных типах контента, но испытывают трудности с другими. Могут существовать настроенные модели, которые лучше подходят для вашей сферы текста.
- Используйте многоуровневое суммирование для больших объемов текста – Для текстов, превышающих ограничения на количество токенов, рассмотрите применение многоуровневого подхода суммирования. Начните с общего резюме, чтобы охватить основные идеи, а затем постепенно суммируйте подразделы или главы для получения более подробных выводов.
- Суммируйте текст по темам – Этот подход помогает сохранить логическую структуру и снизить потерю информации, а также приоритизирует сохранение важной информации. Если вы используете LLMs, создавайте четкие и конкретные подсказки, которые направляют модель на суммирование конкретной темы, а не всего текста в целом.
Заключение
Суммирование является важным инструментом в нашу эпоху информации, позволяющим эффективно усиливать обширную информацию в краткой и значимой форме. Оно играет ключевую роль в различных областях и предлагает множество преимуществ. Суммирование экономит время, передавая важное содержание из длинных документов, помогает в принятии решений путем извлечения критической информации и повышает усвоение знаний в образовании и организации контента.
В этом сообщении представлен всесторонний обзор различных методов суммирования, включая выделяющий, абстрактный и многоуровневый подходы. С помощью таких инструментов, как LangChain и языковые модели, вы можете использовать мощь суммирования, чтобы упростить коммуникацию, улучшить процесс принятия решений и раскрыть полный потенциал обширных информационных репозиториев. Таблица сравнения в этой записи может помочь вам определить наиболее подходящие методы суммирования для ваших проектов. Кроме того, советы, представленные в записи, служат ценным руководством, чтобы избежать повторяющихся ошибок при экспериментировании с LLM для суммирования текста. Это практический совет позволяет вам применить полученные знания, обеспечивая успешное и эффективное суммирование в проектах.