Плотность ядра глубины для обнаружения выбросов в функциональных данных

Использование плотности глубинного ядра для обнаружения выбросов в функциональных данных

 

Введение 

 

В эпоху огромных наборов данных и сложных данных выявление аномалий, или выбросов, стало более тонким искусством и наукой. В то время как традиционные методы выявления выбросов хорошо справляются с скалярными или многомерными данными, функциональные данные, состоящие из кривых, поверхностей или чего-либо непрерывного, представляют уникальные вызовы. Одним из революционных методов, разработанных для решения этой проблемы, является метод “Плотность ядра глубины” (DKD).

В этой статье мы подробно рассмотрим понятие DKD и его значение при выявлении выбросов в функциональных данных с точки зрения специалиста по анализу данных.

 

1. Понимание функциональных данных

 

Прежде чем мы углубимся в тонкости DKD, необходимо понять, что представляют собой функциональные данные. В отличие от традиционных значений данных, которые являются скалярными значениями, функциональные данные состоят из кривых или функций. Можно представить себе, что вся кривая является одним наблюдением данных. Такой тип данных часто возникает в ситуациях, когда измерения выполняются непрерывно во времени, например, кривые температуры в течение дня или траектории фондового рынка.

Данные набора из n кривых, наблюдаемых на области D, могут быть представлены следующим образом:

 

2. Проблема выявления выбросов в функциональных данных

 

Для скалярных данных мы могли бы вычислить среднее значение и стандартное отклонение, и затем определить выбросы на основе данных, которые находятся на определенном количестве стандартных отклонений от среднего значения.

Для функциональных данных этот подход сложнее, потому что каждое наблюдение представляет собой кривую.

Один из способов измерения центральности кривой – вычислить ее “глубину” по отношению к другим кривым. Например, используя простую меру глубины:

Где n – общее количество кривых.

Хотя приведенное выше представление является упрощенным, на практике функциональные наборы данных могут состоять из тысяч кривых, что делает визуальное обнаружение выбросов сложным. Математические формулировки, такие как мера глубины, предоставляют более структурированный подход для оценки центральности каждой кривой и потенциального выявления выбросов.

В практическом сценарии потребуются более продвинутые методы, такие как “Плотность ядра глубины”, чтобы эффективно определить выбросы в функциональных данных.

 

3. Как работает DKD

 

DKD работает путем сравнения плотности каждой кривой в каждой точке с общей плотностью всего набора данных в этой точке. Плотность оценивается с помощью ядерных методов, которые являются непараметрическими техниками, позволяющими оценить плотности в сложных структурах данных.

Для каждой кривой DKD оценивает ее “выбросность” в каждой точке и интегрирует эти значения по всей области. Результатом является одно число, представляющее глубину кривой. Нижние значения указывают на потенциальные выбросы.

Оценка плотности ядра в точке t для заданной кривой Xi?(t) определяется следующим образом:

Где:

  • K (.) – ядро функции, обычно используется гауссово ядро.
  • h – параметр ширины полосы.

Выбор ядра функции K (.) и ширины полосы h может существенно влиять на значения DKD:

  • Ядро функции: гауссовы ядра обычно используются из-за их гладких свойств.
  • Ширина полосы ?: Она определяет гладкость оценки плотности. Часто используются методы перекрестной проверки (cross-validation) для выбора оптимального h.

3. Вычисление значений плотности ядра глубины

Глубина кривой Xi?(t) в точке t относительно всего набора данных рассчитывается следующим образом:

где:

Результатом значения DKD для каждой кривой является мера ее центральности:

  • Кривые с более высокими значениями DKD являются более центральными в наборе данных.
  • Кривые с более низкими значениями DKD являются потенциальными выбросами.

4. Преимущества использования DKD в анализе функциональных данных

Гибкость: DKD не делает сильных предположений о базовом распределении данных, что делает его универсально применимым к различным структурам функциональных данных.

Интерпретируемость: Предоставляя значение глубины для каждой кривой, DKD делает интуитивно понятным, какие кривые являются центральными, а какие потенциальными выбросами.

Эффективность: Несмотря на свою сложность, DKD имеет высокую вычислительную эффективность, что позволяет его использование для больших функциональных наборов данных.

5. Практические последствия

Представьте себе ситуацию, где специалист по данным анализирует кривые сердечного ритма пациентов за 24 часа. Традиционные методы обнаружения выбросов могут выделять случайно возникающие высокие значения сердечного ритма в качестве выбросов. Однако, при использовании функционального анализа данных с помощью DKD, можно обнаружить аномальные кривые сердечного ритма – возможно, указывающие на аритмию, что позволяет получить более глобальное представление о состоянии здоровья пациента.

Заключение

По мере роста сложности данных инструменты и техники их анализа также должны развиваться. Метод плотности ядра глубины предлагает многообещающий подход к изучению сложных функциональных данных, обеспечивая уверенное обнаружение выбросов и получение важных выводов из них. В то время как DKD – только один из многих инструментов в арсенале специалиста по данным, его потенциал в анализе функциональных данных неоспорим, и он готов проложить путь для более сложных методов анализа в будущем.

[Кулбир Сингх](https://www.linkedin.com/in/kulbirsingh8) – выдающийся лидер в области аналитики и науки о данных с более чем двадцатилетним опытом работы в информационных технологиях. Его компетенции многосторонни, охватывая руководство, анализ данных, машинное обучение, искусственный интеллект (AI), создание инновационных решений и решение проблем. В настоящее время, Кулбир занимает должность менеджера информационного здравоохранения в Elevance Health. Стремящийся к продвижению искусственного интеллекта (AI), Кулбир основал AIboard.io – инновационную платформу, посвященную созданию образовательного контента и курсов, связанных с AI и здравоохранением.