Загрузить предварительные векторы Gensim

Я использую пакет Gensim Python для изучения модели нейронного языка, и я знаю, что вы можете предоставить учебный корпус для изучения модели. Однако в текстовом формате уже имеется много заранее вычисленных векторов слов (например, http://www-nlp.stanford.edu/projects/glove/ ). Есть ли способ инициализировать модель Gensim Word2Vec, которая просто использует некоторые предварительно вычислимые векторы, вместо того, чтобы изучать векторы с нуля?

Благодаря!

2 Solutions collect form web for “Загрузить предварительные векторы Gensim”

Вы можете скачать предварительно подготовленные словарные векторы отсюда (получить файл «GoogleNews-vectors-negative300.bin»): word2vec

Извлеките файл, а затем вы можете загрузить его в python, например:

model = gensim.models.word2vec.Word2Vec.load_word2vec_format(os.path.join(os.path.dirname(__file__), 'GoogleNews-vectors-negative300.bin'), binary=True) model.most_similar('dog') 

EDIT (май 2017 года): поскольку приведенный выше код теперь устарел, вот как вы теперь загружаете векторы:

 model = gensim.models.KeyedVectors.load_word2vec_format(os.path.join(os.path.dirname(__file__), 'GoogleNews-vectors-negative300.bin'), binary=True) 

Сброс GloVe с сайта Stanford находится в формате, который немного отличается от формата word2vec. Вы можете преобразовать файл GloVe в формат word2vec, используя:

 python -m gensim.scripts.glove2word2vec --input glove.840B.300d.txt --output glove.840B.300d.w2vformat.txt 
  • Doc2vec: как получить векторы документов
  • Проблемы с получением триграмм с использованием Gensim
  • Понимание вывода Doc2Vec из пакета Gensim
  • Использовать код учебника LSTM для предсказания следующего слова в предложении?
  • Как рассчитать схожесть предложения, используя модель word2vec gensim с python
  • Как следует интерпретировать параметр «размер» в функции Doc2Vec gensim?
  • Как тренировать Word2vec на очень больших наборах данных?
  • Соответствующие слова и векторы в gensim модели Word2Vec
  • Python - лучший язык программирования в мире.