BERTopic В чем особенность версии 0.16?

Что особенно в версии 0.16 BERTopic?

Исследование нулевого шага моделирования тем, соединение моделей и LLMs

Моя амбиция для BERTopic – сделать его полностью настраиваемой и гибкой платформой для моделирования тем.

Это была цель последних нескольких лет, и с релизом версии v0.16 я считаю, что мы приближаемся к ее достижению.

Давайте сначала сделаем небольшой шаг назад. Что такое BERTopic?

BERTopic – это фреймворк моделирования тем, позволяющий пользователям создавать свою собственную версию моделирования тем. С множеством вариаций моделирования тем, идея заключается в том, чтобы она поддерживала почти любой случай использования.

Модульная структура BERTopic позволяет создавать модель тем так, как вам удобно. Замена компонентов позволяет BERTopic развиваться вместе с последними достижениями в области языкового искусственного интеллекта.

С релизом версии v0.16 были введены несколько функций, которые, на мой взгляд, повысят уровень BERTopic, а именно:

  • Нулевое шаговое моделирование тем
  • Соединение моделей
  • Больше поддержки больших языковых моделей (LLM)
Возможности BERTopic в картинках.

В этом руководстве мы рассмотрим, что это за функции и для каких случаев использования они могут быть полезны.

Чтобы начать, вы можете установить BERTopic (с HF наборами данных) следующим образом:

pip install bertopic datasets

Вы также можете следовать Google Colab Notebook, чтобы убедиться, что все работает как задумано.

Нулевое шаговое моделирование тем: гибкая техника

Техники нулевого шага обычно предполагают отсутствие примеров для обучения ваших данных. Хотя вы знаете цель, она не присваивается вашим данным.

В BERTopic мы используем нулевое шаговое моделирование тем для поиска заранее определенных тем в большом количестве документов.

Представьте, у вас есть абстракты ArXiv по машинному обучению, и вы знаете, что тема “Большие языковые модели” присутствует. С помощью нулевого шагового моделирования тем вы можете попросить BERTopic найти все документы, связанные с…