текстовый блок python и текстовая классификация

Я пытаюсь создать модель классификации текста с помощью python и textblob , сценарий запускается на моем сервере, и в будущем идея состоит в том, что пользователи смогут отправлять свой текст, и он будет классифицирован. Я загружаю обучающий набор из csv:

# -*- coding: utf-8 -*- import sys import codecs sys.stdout = open('yyyyyyyyy.txt',"w"); from nltk.tokenize import word_tokenize from textblob.classifiers import NaiveBayesClassifier with open('file.csv', 'r', encoding='latin-1') as fp: cl = NaiveBayesClassifier(fp, format="csv") print(cl.classify("some text")) 

csv имеет длину около 500 строк (со строкой от 10 до 100 символов), а для NaiveBayesclassifier требуется около 2 минут для обучения, а затем возможность классифицировать мой текст (не уверен, что это нормально, что ему нужно столько времени, может быть, мой сервер медленный с 512 МБ).

пример строки csv:

 "Oggi alla Camera con la Fondazione Italia-Usa abbiamo consegnato a 140 studenti laureati con 110 e 110 lode i diplomi del Master in Marketing Comunicazione e Made in Italy.",FI-PDL 

что мне непонятно, и я не могу найти ответ на документацию по textblob, если есть способ «сохранить» мой обученный классификатор (так что сэкономьте много времени), потому что теперь каждый раз, когда я запускаю скрипт, он будет тренировать снова классификатор. Я новичок в классификации текста и машинной речи, поэтому извиняюсь, если это глупый вопрос.

Заранее спасибо.

    One Solution collect form web for “текстовый блок python и текстовая классификация”

    Хорошо, нашел, что маринованный модуль – то, что мне нужно 🙂

    Обучение:

     # -*- coding: utf-8 -*- import pickle from nltk.tokenize import word_tokenize from textblob.classifiers import NaiveBayesClassifier with open('file.csv', 'r', encoding='latin-1') as fp: cl = NaiveBayesClassifier(fp, format="csv") object = cl file = open('classifier.pickle','wb') pickle.dump(object,file) 

    извлекающий:

     import pickle sys.stdout = open('demo.txt',"w"); from nltk.tokenize import word_tokenize from textblob.classifiers import NaiveBayesClassifier cl = pickle.load( open( "classifier.pickle", "rb" ) ) print(cl.classify("text to classify")) 
    Python - лучший язык программирования в мире.