Tag: performance

O (n) решение для нахождения максимальной суммы различий python 3.x?

Мне было интересно, учитывая список целых чисел, скажем l , и если нам разрешено выбрать 3 целых числа из этого списка, скажем, left , middle , right , где middle > left, right и left, middle, right появятся в этом порядке в список (т. е. index(left)<index(middle)<index(right) ), существует ли решение O(n) для нахождения максимума middle […]

numpy: эффективное чтение большого массива

У меня есть двоичный файл, содержащий плотную матрицу n*m из 32-битных поплавков. Каков наиболее эффективный способ прочитать его в массив numpy упорядоченный по Fortran? Файл имеет размер в несколько гигабайт. Я получаю управление форматом, но он должен быть компактным (т. Е. Длиной около 4*n*m байтов) и должен быть легко создан из кода, отличного от Python. […]

Каков самый быстрый способ чтения данных из текстового файла и выделения его в фрейм данных?

Я хочу создать DataFrame , прочитав текстовый файл. df.loc[[],[]] ли создавать мультииндекс, а затем выделять данные из текстового файла с помощью df.loc[[],[]] или конкатенировать строки в DataFrame и устанавливать индекс DataFrame в конце? Или, быстрее ли использовать список или dict для хранения данных по мере чтения из файла, а затем создать из них DataFrame ? […]

Каков наилучший подход в python: несколько OR или IN в инструкции if?

Каков наилучший подход в python: несколько OR или IN в инструкции if? Учитывая производительность и лучшие оценки. if cond == '1' or cond == '2' or cond == '3' or cond == '4' (etc…) : ИЛИ if cond in ['1','2','3','4']: Спасибо.

Разница между производительностью или стилем между «if» и «if not»?

Есть ли разница в производительности или предпочтение стиля между этими двумя способами написания, если заявления? Это в основном то же самое, условие 1 будет выполняться только один раз, а другое условие будет выполняться в другое время. Если условие, которое выполняется только один раз, будет первым или вторым? Имеет ли значение разницу в производительности? Я предпочитаю […]

Как повысить эффективность с помощью массивов numpy?

Я просто знаком с numpy, и меня впечатляют его претензии на C-подобную эффективность с доступом к памяти в ndarrays. Я хотел увидеть различия между ними и списками python для себя, поэтому я провел быстрый тест времени, выполнив несколько простых задач с numpy без него. Как и ожидалось, на порядок величины распределяются и распределяются регулярные списки […]

Присвоение значений средам массива медленнее

Я пытаюсь оптимизировать алгоритм Python, реализуя его в Cython. Мой вопрос касается определенного узкого места производительности, которое существует в следующем коде: @cython.boundscheck(False) # turn off bounds-checking for entire function def anglesToRGB( np.ndarray[double, ndim=2] y, np.ndarray[double, ndim=2] x ): cdef double angle cdef double Hp cdef double C cdef double X cdef np.ndarray[double, ndim=3] res = […]

Python Pandas: конвертировать 2,000,000 строк DataFrame в двоичную матрицу (pd.get_dummies ()) без ошибки памяти?

Я обрабатываю большой файл записей с 2,000,000 строк. Каждая строка содержит функции об электронных письмах и двоичную метку [0,1] для спама или спама соответственно. Я хочу преобразовать все функции, такие как email_type который принимает значения от [1,10] к двоичной матрице. Это можно выполнить с помощью pd.get_dummies() , который создает двоичную матрицу из столбца функций. Это […]

Использование сельдерея для обработки огромных текстовых файлов

Задний план Я изучаю использование сельдерея (3.1.8) для обработки огромных текстовых файлов (~ 30 ГБ) каждый. Эти файлы находятся в формате fastq и содержат порядка 118 м секвенирования «чтение», которые по существу представляют собой комбинацию заголовков, последовательности ДНК и строки качества). Кроме того, эти последовательности выполняются с помощью сеанса парного конца, поэтому я повторяю два […]

Удаление десериализации огромной строки json для объектов python

Я использую simplejson для десериализации json-строки для объектов python. У меня есть собственный написанный объект object_hook, который заботится о десериализации json обратно на мои объекты домена. Проблема в том, что когда моя строка json огромна (т.е. сервер возвращает около 800K объектов домена в виде строки json), мой десериализатор python занимает почти 10 минут, чтобы десериализовать […]

 
Interesting Posts for Van-Lav

Автоматический запуск скрипта python без перезагрузки зависимостей

Преобразование Python 3 ResourceWarnings в исключение

Идеальная пересылка – в Python

Tweepy Tracking Несколько терминов

Программирование сокетов python OSError: была предпринята попытка операции над чем-то, что не является сокетом

Проверьте, оценивает ли предикат true для всех элементов в итерабельном в python

Как проверить, содержит ли строка элемент из списка в Python

Чтение содержимого файла .tar.gz с веб-сайта в объект python 3.x

Запросы на бутылки Python и unicode

Определение реализации Python во время выполнения?

PEP8: линия продолжения с отступом для визуального отступа

Абстрактные классы Python – как препятствовать созданию экземпляров?

Аналог Python функции natsort (сортировка списка с использованием алгоритма «естественного порядка»)

Перенесите переменную в исходное значение (определенное до цикла) при запуске каждой итерации в цикле

Python + Selenium + PhantomJS визуализировать PDF

Python - лучший язык программирования в мире.