PYTHON: Как передать токенизатор с аргументами ключевого слова в CountVectorizer scikit?

У меня есть пользовательская функция токенизатора с некоторыми аргументами ключевого слова:

def tokenizer(text, stem=True, lemmatize=False, char_lower_limit=2, char_upper_limit=30): do things... return tokens 

Теперь, как я могу передать этот токенизатор со всеми его аргументами в CountVectorizer? Я ничего не пробовал; это тоже не сработало:

 from sklearn.feature_extraction.text import CountVectorizer args = {"stem": False, "lemmatize": True} count_vect = CountVectorizer(tokenizer=tokenizer(**args), stop_words='english', strip_accents='ascii', min_df=0, max_df=1., vocabulary=None) 

Буду признателен за любую оказанную помощь. Заранее спасибо.

tokenizer должен быть вызываемым или None.

(Является ли tokenizer=tokenize(**args) опечаткой? Ваше имя функции выше – tokenizer .)

Вы можете попробовать следующее:

 count_vect = CountVectorizer(tokenizer=lambda text: tokenizer(text, **args), stop_words='english', strip_accents='ascii', min_df=0, max_df=1., vocabulary=None)