Python + нейронные сети + большой размерный массив данных

Я создаю приложение NLP. Мой набор данных имеет 0,6 М данных по каждому из 0,15М измерений. Мой вектор-функция очень разрежен – в основном 0 с, максимум 20 единиц в любом вектор-функции. Я использую машину 32 ГБ на AWS. Из-за размера Cant загружает весь набор данных за один раз в памяти. Я ищу библиотеку нейронной сети […]

Параллельность Pymongo и модуль многопроцессорности

Я пытаюсь понять лучший способ распараллеливать обработку запросов или результатов запроса с помощью pymongo. Все мое чтение говорит о том, что у вас должно быть небольшое количество объектов MongoClient (). Скажем, у меня есть две разные реализации модуля data_interface.py from pymongo import MongoClient client = MongoClient('localhost',27017) def execute_query(id_to_find): db = client['mydatabase'] my_collection = db.my_collection data_cursor […]

scrapy – обработка нескольких типов элементов – множественные и связанные модели Django и сохранение их в базе данных в трубопроводах

У меня есть следующие модели Django. Я не уверен, что лучший способ сохранить эти взаимосвязанные объекты при сканировании в паук в базу данных в Django с использованием протоколов scrapy. Похоже, что трубопровод для скрипов был построен для обработки только одного «вида» предмета models.py class Parent(models.Model): field1 = CharField() class ParentX(models.Model): field2 = CharField() parent = […]

Как оптимизировать uWSGI приложение python + nginx на Ubuntu?

У меня есть простое приложение Flask, которое предоставляет один api. Вызов api запускает алгоритм python, который выполняет много строковых манипуляций и чтения файлов (без записи). Алгоритм занимает около 1000 мс. Я пытаюсь понять, есть ли способ оптимизировать одновременные запросы. Я запускаю один экземпляр из 4 vCPU VM. Я написал клиента, который делает запрос каждые 1000 […]

Свертывание мультииндекса DataFrame для регрессии

У меня есть Multiindexed DataFrame, содержащий объясняющие переменные df и DataFrame, содержащие переменные ответа df_Y # Create DataFrame for explanatory variables np.arrays = [['foo', 'foo', 'foo', 'bar', 'bar', 'bar'], [1, 2, 3, 1, 2, 3]] df = pd.DataFrame(np.random.randn(6,2), index=pd.MultiIndex.from_tuples(zip(*np.arrays)), columns=['X1', 'X2']) # Create DataFrame for response variables df_Y = pd.DataFrame([1, 2, 3], columns=['Y']) Я могу […]

Удаление неиспользуемых категорий в результатах серии в дублированных категориях

Итак, мы создаем серию с величиной NaN в пандах 0,17 >>> s = pd.Series(["A", "B", pd.np.nan]).astype("category") Затем мы удаляем неиспользуемые категории, которые дают следующий результат: >>> s.cat.remove_unused_categories() 0 A 1 B 2 NaN dtype: category Categories (3, object): [B, A, B] Я просмотрел код remove_unused_categories и вижу, что cat._codes возвращает [ 0 1 -1] для […]

Django OAuth Toolkit «Тип ресурса-владельца на основе пароля»

Я пытаюсь настроить OAuth2 для Django + Rest Framework с помощью Django OAuth Toolkit, и вот головоломка, которую я не могу понять при использовании типа авторизации с правами владельца на основе паролей. Я могу успешно получить access_token для того же пользователя, который зарегистрировал приложение (владельца клиента), используя: Однако, когда я пытаюсь использовать те же client_id […]

Добавление пакетов в исключения pylint

Я использую pylint со spyder, но когда я оцениваю статический анализ кода, он утверждает, что numpy не имеет каких-либо членов. Кто-нибудь знает способ добавления пакетов python в какой-то список универсальных исключений, чтобы pyline просто пропустил их? Я ударил немного кирпичной стены с Google – некоторые источники ссылаются на файл «* .rc», но я не могу […]

Различные размеры дикта и внутреннего объекта __dict__

У меня есть дикт, его размер – 198526 год. sys.getsizeof(dic)) # 198526 class Actor(object): def __init__(self): pass actor = Actor() actor.__dict__.update(dic) sys.getsizeof(actor.__dict__) #89850 Почему actor.__dict__ < dict ?

PyQt5: QApplication получает все больше QTimers

У меня странный эффект с приложением, встроенным в Python 3.4 с использованием PyQt5 (и использование asyncio и quamash , должно ли это иметь значение). Программа выполняет некоторые периодические действия, используя один поток и time.sleep() и один раз с помощью asyncio coroutine и asyncio.sleep() . Теперь, как только запускается одна или обе эти периодические операции, потребление […]

Python - лучший язык программирования в мире.