Полное руководство по созданию искусственного интеллекта для краткого резюмирования видео на YouTube — Часть 2

Мастер-класс по созданию искусственного интеллекта для краткого резюмирования видео на YouTube — Часть 2

Конспектирование видеотранскрипта с использованием LangChain и модели Falcon с эффективным использованием квантования

Изображение, созданное автором с использованием Playground.ai

В предыдущей части этой серии мы захватили транскрипт видео на YouTube. В этом посте мы возьмем этот транскрипт и создадим конвейер конспектирования, который укорачивает текст до краткого конспекта, включая ключевые моменты и аргументы, представленные в видео (см. рисунок 1). Для этого мы будем использовать LangChain для создания конвейера конспектирования и HuggingFace для выводов с использованием открытых исходных LLM. Вы можете ознакомиться с демонстрацией инструмента или кодом, размещенными на Hugging Face Spaces. Попробуйте или склонируйте его и дайте мне знать в комментариях, что вы думаете. Прежде чем мы погрузимся в создание конвейера, давайте рассмотрим некоторые основные концепции задачи.

Конвейеры LangChain для конспектирования текста

Конспектирование текста – одна из самых изученных областей обработки естественного языка (NLP). Это вызывало любопытство практиков на протяжении очень долгого времени, учитывая высокую добавленную стоимость задачи извлечения абстрактной информации из больших объемов текста. Поэтому, как можно ожидать, с течением времени были разработаны различные методы для решения этой проблемы. Без того, чтобы утомлять вас историей, я сейчас расскажу о передовых методах, которые теперь легко доступны через LangChain: Stuff, Map-reduce и Refine. То, что отличает эти методы, – это то, как текст передается в контекстное окно LLM.

Что такое контекстное окно?

Контекстное окно в LLM означает количество токенов, которые модель рассматривает как контекст при прогнозировании вероятности следующего слова в последовательности. Это фиксированный размер для данной модели и является частью ее параметров проектирования. Это означает, что модель, обученная с использованием размера контекстного окна 1000, может взять только 1000 токенов в качестве контекста при прогнозировании следующих слов. В настоящее время LLM поставляются с различными размерами контекстного окна, варьирующимися от сотен до десятков тысяч. Обычно предпочтительны LLM с большими размерами контекстного окна. Однако большое контекстное окно имеет свою цену: более дорогая обучение и вывод, а…