Сроки взвешивания для оригинального LDA в gensim

Я использую библиотеку gensim для применения LDA к набору документов. Используя gensim, я могу применить LDA к корпусу, независимо от веса слова: binary, tf, tf-idf …

Мой вопрос: какой термин весовой коэффициент следует использовать для оригинальной LDA ? Если бы я правильно понял, то весы должны быть на частотах, но я не уверен.

Это должен быть корпус, представленный как «сумка слов». Или, да, списки счетчиков терминов.

Правильный формат – это corpus определенный в первом учебном пособии на веб-странице Gensim (это действительно полезно).

А именно, если у вас есть dictionary определенный в учебнике Radim, и следующие документы,

 doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash'] doc2 = ['this', 'document', 'has', 'words'] docs = [doc1, doc2] 

то ваш корпус (для использования с LDA) должен быть итерируемым объектом (например, списком) списков кортежей формы: (dictKey, count) , где dk ссылается на ключ словаря термина, а count – это число раз в документе. Это делается для вас

 corpus = [dictionary.doc2bow(doc) for doc in docs] 

Эта функция doc2bow означает «документ для мешка слов».