Упрощение анализа временных рядов для ученых-данных
Упрощение анализа временных рядов
Примечание редактора: Джефф Тао выступит на конференции ODSC West 2023 осенью этого года. Обязательно ознакомьтесь с его докладом “Что такое временная база данных и зачем мне она нужна?”.
Большинство специалистов по анализу данных знакомы с концепцией временных рядов и часто работают с ними. Однако временная база данных (TSDB) до сих пор является недостаточно используемым инструментом в сообществе аналитиков данных. Хотя создание базы данных для выполнения анализа может показаться трудной задачей, современные открытые временные базы данных могут предоставить значительные преимущества любому ученому, работающему с временными рядами на большом наборе данных – и с гораздо меньшими усилиями, чем вы могли бы предполагать.
Обычно анализ временных рядов выполняется либо на файлах CSV, либо на наборах данных. Они могут показаться более простыми решениями по сравнению с традиционными базами данных, так как они могут хранить практически любой тип данных без необходимости предопределенной схемы. Однако они усложняют сохранение контекста каждой точки данных – например, местоположение сборщика данных, температура при сборе или множество других элементов, которые необходимо сохранить, чтобы гарантировать правильность анализа. Кроме того, гибкость наборов данных в организации данных может иметь нежелательный побочный эффект, а именно, усложнение запросов или фильтрации данных.
- 5 портфельных проектов для студентов последнего курса факультета науки о данных
- Визуализация данных теория и техники
- Пространственная инженерия данных с использованием Typescript
Специализированная временная база данных, с другой стороны, может легко сохранять этот тип метаданных в виде тегов или меток, связанных с каждым временным рядом. Очистка и преобразование данных также становятся простыми задачами с TSDB – например, совмещение временных меток нескольких наборов данных может быть быстро выполнено с помощью встроенных в базу данных функций интерполяции или агрегации. И получение данных становится простым с использованием языка запросов, такого как SQL, где можно фильтровать по значению, тегу, временному диапазону и др.
TDengine – это пример временной базы данных, которая упрощает процесс анализа масштабных временных рядов, чтобы специалисты по данным могли больше времени уделять научным исследованиям. Он быстро обрабатывает и хранит массивные наборы данных с высокой производительностью и масштабируемостью, и с небольшими знаниями SQL вы можете управлять своими данными гораздо удобнее, чем с традиционными файлами CSV. Самое главное, вы можете начать работу с TDengine всего за 60 секунд, а его бесплатная версия с открытым исходным кодом доступна для скачивания и использования.
По умолчанию включается несколько функций для работы с временными рядами, таких как кумулятивные суммы, взвешенные временные средние и скользящие средние, а также можно создавать пользовательские функции (UDF) на Python или C. Поддержка популярных проектов экосистемы Python, таких как pandas и Jupyter, гарантирует, что вы можете легко импортировать и экспортировать данные, а безшовная интеграция с инструментами визуализации, такими как Grafana, позволяет отображать вашу работу в новаторских способах и получать новые идеи.
Если вы хотите узнать больше о временных базах данных и о том, как они могут помочь вам более эффективно анализировать временные ряды, я приглашаю вас посетить мою предстоящую сессию “Что такое временная база данных и зачем мне она нужна?” на ODSC West 2023. Сессия будет включать примеры кода и демонстрацию, после чего я буду рад ответить на все ваши вопросы по данной теме.
Об авторе:
Джефф Тао является основателем и генеральным директором TDengine. У него есть опыт работы технолога и серийного предпринимателя, прежде чем заниматься исследованиями и разработкой в области мобильного Интернета в компаниях Motorola и 3Com и создать две успешные технологические стартапы. Предвидя взрывной рост временных рядов данных, генерируемых машинами и датчиками, он основал TDengine в мае 2017 года для разработки высокопроизводительной временной базы данных, созданной специально для современных предприятий IoT и IIoT.