Нравится анализ главных компонентов? Новая статья сообщает, что это может приводить к появлению артефактов в виде «фантомных колебаний».

Восхищаетесь анализом основных компонентов? Новая статья раскрывает, как он способен вызвать появление 'фантомных колебаний' в виде артефактов.

Метод анализа главных компонент (PCA), широко используемый статистический метод для упрощения сложных наборов данных, показал возникновение “фантомных колебаний” – узоров, которые появляются в данных, хотя и не существуют в исходном наборе данных. Узнайте больше об этом, особенно если вы привыкли применять PCA к данным с обсуждаемыми характеристиками. Это также является возможностью рассмотреть другие ограничения и недостатки PCA.

Рисунок, составленный автором из его собственного инструмента PCA (здесь).

Введение

Метод анализа главных компонент (PCA) – это метод снижения размерности, который проецирует входные переменные, описывающие набор объектов, в линейные комбинации этих переменных, чтобы максимально объяснить дисперсию с минимальным количеством переменных. PCA широко используется для упрощения сложных наборов данных.

Чтобы узнать, как именно работает PCA, вот что стоит проверить:

Подробное руководство по анализу главных компонент

Руководство, раскрывающее низкоуровневый код, который можно редактировать и запускать в браузере, чтобы навсегда понять PCA…

towardsdatascience.com

Однако неудивительно, что у этой техники есть свои недостатки. Вы, вероятно, уже знаете или, по крайней мере, бессознательно осознаете низкую интерпретируемость главных компонент (они являются линейными комбинациями характеристик исходных данных, но эти комбинации не легко интерпретировать), а также о врожденном компромиссе между потерей информации и снижением размерности (что неизбежно влияет на все методы снижения размерности в большей или меньшей степени). Кроме того, PCA, конечно же, предполагает линейные отношения между входными переменными и не является устойчивым к выбросам. Кроме того, PCA может применяться только к непрерывным переменным и не может вычисляться с пропущенными данными.

Теперь, только на этой неделе, было обнаружено новое ограничение, которое не так очевидно.

В статье, опубликованной в PNAS, говорится о том, что PCA производит “фантомные колебания”, то есть узоры, которые появляются в обработанных данных, хотя и не существуют в исходном наборе данных, в качестве математического следствия способа вычисления PCA. Работа…