Тематическое моделирование с Llama 2

Тематическое моделирование с Llama 2' - 'Topic modeling with Llama 2

Создание легко интерпретируемых тем с помощью больших языковых моделей

С появлением Llama 2 запуск сильных LLMs локально стал все более реальным. Его точность приближается к GPT-3.5 от OpenAI, что хорошо подходит для многих случаев использования.

В этой статье мы рассмотрим, как мы можем использовать Llama2 для тематического моделирования без необходимости передавать каждый отдельный документ модели. Вместо этого мы собираемся использовать BERTopic, модульную технику тематического моделирования, которая может использовать любой LLM для настройки представлений тем.

BERTopic работает довольно просто. Он состоит из 5 последовательных шагов:

  1. Встраивание документов
  2. Сокращение размерности вложений
  3. Кластеризация сокращенных вложений
  4. Токенизация документов на кластер
  5. Извлечение наилучших представляющих слов на кластер
5 основных шагов BERTopic.

Однако с появлением LLMs, таких как Llama 2, мы можем сделать гораздо больше, чем просто набор независимых слов на тему. Вычислительно невозможно передавать все документы напрямую в Llama 2 и анализировать их. Мы можем использовать векторные базы данных для поиска, но мы не совсем уверены, какие темы искать.

Вместо этого мы будем использовать кластеры и темы, созданные BERTopic, и позволим Llama 2 настраивать и уточнять эту информацию, чтобы она стала более точной.

Это лучшее из обоих миров: создание тем BERTopic вместе с представлением тем Llama 2.

Llama 2 позволяет нам уточнять представления тем, созданные BERTopic.

Теперь, когда этот вводный курс пройден, давайте приступим к практическому пособию!

Мы начнем с установки нескольких пакетов, которые мы будем использовать в этом примере:

pip install bertopic datasets accelerate bitsandbytes xformers adjustText

Имейте в виду, что вам понадобится как минимум GPU T4, чтобы запустить этот пример, что может…