Tag: машинное обучение

NLP – Когда вводить строчный текст во время предварительной обработки

Я хочу построить модель для моделирования языков, которая должна предсказывать следующие слова в предложении, учитывая предыдущее слово (слова) и / или предыдущее предложение. Случай использования: я хочу автоматизировать составление отчетов. Поэтому модель должна автоматически завершить предложение, которое я пишу. Поэтому важно, чтобы существительные и слова в начале предложения были капитализированы. Данные : Данные находятся на […]

Машинное обучение: Перемещение Трешхолда

Я пытаюсь решить проблему двоичной классификации, где 80% данных принадлежит классу x, а 20% данных принадлежит классу y. Все мои модели (AdaBoost, Neural Networks и SVC) просто предсказывают, что все данные будут частью класса x, так как это максимальная точность, которую они могут достичь. Моя цель – добиться более высокой точности для всех записей класса […]

scikit-learn CART String Data

Можете ли вы обучить DecisionTreeClassifier строковыми данными? Когда я пытаюсь использовать данные String, я получаю значение ValueError: невозможно преобразовать строку в float clf = DecisionTreeClassifier() clf.fit([['asdf', '1'], ['asdf', '0']], ['2', '3'])

неотрицательная матричная факторизация не сходится

Я пытаюсь реализовать неотрицательную матричную факторизацию, используя дивергенцию Кулбека-Либлера как меру подобия. Алгоритм описан в: http://hebb.mit.edu/people/seung/papers/nmfconverge.pdf . Ниже приведена моя реализация python / numpy с примерной матрицей для ее запуска. В двух словах алгоритм должен изучать матрицы W (n по r) и H (r по m), такие, что V (n по m) приблизительно WH. Вы […]

scikit-learn возвращает значение LogisticRegression.predict_proba

Что именно возвращает функция LogisticRegression.predict_proba ? В моем примере я получаю такой результат: [[ 4.65761066e-03 9.95342389e-01] [ 9.75851270e-01 2.41487300e-02] [ 9.99983374e-01 1.66258341e-05]] Из других расчетов, используя сигмоидную функцию, я знаю, что второй столбец – это вероятности. В документации говорится, что первый столбец – n_samples , но этого не может быть, потому что мои образцы – […]

Панды: Самый эффективный способ сделать словарь словарей из столбцов DataFrame

import pandas as pd import numpy as np import random labels = ["c1","c2","c3"] c1 = ["one","one","one","two","two","three","three","three","three"] c2 = [random.random() for i in range(len(c1))] c3 = ["alpha","beta","gamma","alpha","gamma","alpha","beta","gamma","zeta"] DF = pd.DataFrame(np.array([c1,c2,c3])).T DF.columns = labels DataFrame выглядит так: c1 c2 c3 0 one 0.440958516531 alpha 1 one 0.476439953723 beta 2 one 0.254235673552 gamma 3 two 0.882724336464 alpha 4 […]

Почему GridSearchCV не дает лучший результат? – Scikit Learn

У меня есть набор данных с 158 строками и 10 столбцами. Я пытаюсь построить несколько моделей линейной регрессии и попытаться предсказать будущее значение. Я использовал GridSearchCV для настройки параметров. Вот моя функция GridSearchCV и регрессии: def GridSearch(data): X_train, X_test, y_train, y_test = cross_validation.train_test_split(data, ground_truth_data, test_size=0.3, random_state = 0) parameters = {'fit_intercept':[True,False], 'normalize':[True,False], 'copy_X':[True, False]} model […]

списки кодирования / факторинга в pandas dataframe

Я пытаюсь закодировать списки категорий внутри фрейма данных, факторизуя их. Затем я создам матрицу из этой серии списков (нормализуя их до заданной длины, создавая многомерный массив и разогревая кодировку элементов в матрице). Однако факторы не поддерживают согласованность между строками. Это можно увидеть здесь: >>> import pandas as pd >>> df = pd.DataFrame({'A': [ ['Other', 'Male', […]

вопрос о анализе настроений

У меня есть вопрос относительно анализа настроений, с которым мне нужна помощь. Прямо сейчас, у меня есть куча твитов, которые я собрал в twitter search api. Поскольку я использовал свои поисковые термины, я знаю, какие темы или сущности (имена лиц) я хочу посмотреть. Я хочу знать, как другие относятся к этим людям. Во-первых, я загрузил […]

Как вычислить корреляционные перекрестные проверки в scikit-learn?

Я выполняю классификационную задачу. Тем не менее, я получаю несколько разные результаты: #First Approach kf = KFold(n=len(y), n_folds=10, shuffle=True, random_state=False) pipe= make_pipeline(SVC()) for train_index, test_index in kf: X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] print ('Precision',np.mean(cross_val_score(pipe, X_train, y_train, scoring='precision'))) #Second Approach clf.fit(X_train,y_train) y_pred = clf.predict(X_test) print ('Precision:', precision_score(y_test, y_pred,average='binary')) #Third approach pipe= […]

Interesting Posts for Van-Lav

Работа с конфликтом имени модуля

Не удается получить доступ к Queue.Empty: «Объект AttributeError:« function »не имеет атрибута« Пусто »

InvalidArgumentError при поиске Attention_ocr: Assign требует, чтобы формы обоих тензоров совпадали

Настройка линий сетки на фигуре 3D Matplotlib

Почему эксклюзивные эксклюзивные срезы и диапазоны?

python match только захватывает первую и последнюю группу – я что-то не понимаю?

Не удается запустить Flask с использованием Passenger WSGI на общем хостинге Dreamhost

Python добавляет дополнительный CR в конце полученных строк

Соответствие регулярных выражений между двумя строками?

Питон – обратная формула Винценти не сходится (нахождение расстояния между точками на Земле)

Создание гистограмм данных / визуализации с использованием ipython и фильтрация некоторых значений

Самый эффективный способ поиска в списке dicts

Какой класс супер (имя класса, экземпляр) на самом деле вызывает?

Контроль скорости вращения вентилятора и определение внутренней температуры ПК с помощью питона?

Python IOError: Errno 13 Разрешение отклонено

Python - лучший язык программирования в мире.