Изучение Numexpr мощный движок, стоящий за Pandas

Numexpr - мощный движок, используемый в Pandas

БЫСТРЫЕ ВЫЧИСЛЕНИЯ

Улучшение производительности анализа данных с помощью функций Numexpr и eval/query в Python с использованием Pandas

Используйте Numexpr, чтобы помочь мне найти самый комфортный город. Фото: создано автором, Canva

В этой статье вы познакомитесь с библиотекой Python Numexpr, инструментом, повышающим вычислительную производительность массивов Numpy. Методы eval и query библиотеки Pandas также основаны на этой библиотеке.

В статье также представлен практический проект анализа погодных данных.

Чтение этой статьи позволит вам понять принципы работы Numexpr и использовать этот мощный инструмент для ускорения вычислений в реальном времени.

Введение

Напоминание о массивах Numpy

В предыдущей статье, посвященной массивам Numpy, я использовал пример из библиотеки, чтобы объяснить, почему кэш-локальность Numpy настолько эффективна:

Списки Python против массивов NumPy: глубокий взгляд на организацию памяти и преимущества производительности

Исследование различий в выделении памяти и повышение эффективности

towardsdatascience.com

Каждый раз, когда вы идете в библиотеку ищете материалы, вы берете несколько книг, связанных с содержанием, и кладете их рядом с вашим столом.

Таким образом, вы можете быстро проверить связанные материалы, не обращаясь к полке каждый раз, когда вам нужно прочитать книгу.

Этот метод экономит много времени, особенно когда вам нужно проконсультироваться с множеством связанных книг.

В этом сценарии полка подобна вашей памяти, стол эквивалентен кэшу L1 процессора, а вы, читатель, являетесь ядром процессора.

Когда процессор обращается к ОЗУ, кэш загружает всю линию кэша в кэш высокой скорости. Изображение от автора

Ограничения NumPy

Предположим, что вам не повезло встретить требовательного преподавателя, который хочет, чтобы вы взяли работы Шекспира и Толстого для сравнительного анализа.

На этом этапе заранее взять связанные книги не сработает хорошо.