Проклятие размерности представлено в доступной форме

Магия размерности раскрыта в понятном изложении

Понимание математической интуиции за проклятием размерности

Источник изображения: https://pixabay.com/illustrations/ancient-art-background-cosmos-dark-764930/

Проклятие размерности относится к проблемам, возникающим при анализе высокомерных данных. Размерность набора данных определяет количество линейно независимых признаков в этом наборе данных, поэтому набор данных с высокой размерностью является набором данных с большим количеством признаков. Этот термин впервые был предложен Беллманом в 1961 году, когда он обнаружил, что количество образцов, необходимых для оценки произвольной функции с определенной точностью, растет экспоненциально относительно количества параметров, которые принимает функция.

В этой статье мы подробно рассмотрим математические проблемы, возникающие при анализе высокомерного набора. Хотя эти проблемы могут казаться неправдоподобными, их можно интуитивно объяснить. Вместо чисто теоретического обсуждения мы используем Python для создания и анализа высокомерных наборов данных и видим, как проклятие размерности проявляется на практике. В этой статье все изображения, если не указано иное, принадлежат автору.

Размерность набора данных

Как уже упоминалось, размерность набора данных определяется как количество линейно независимых признаков, которыми он обладает. Линейно независимый признак не может быть записан как линейная комбинация признаков в этом наборе данных. Следовательно, если признак или столбец в наборе данных является линейной комбинацией других признаков, он не добавляет размерность этого набора данных. Например, на рисунке 1 показаны два набора данных. В первом наборе данных есть два линейно независимых столбца, и его размерность равна 2. Во втором наборе данных один столбец является кратным другому, поэтому у нас есть только один независимый признак. Как показывает график этого набора данных, несмотря на наличие двух признаков, все точки данных лежат на одномерной линии. Следовательно, размерность этого набора данных равна одному.

Рисунок 1

Влияние размерности на объем

Основная причина проклятия размерности – это влияние размерности на объем. Здесь мы сосредоточимся на геометрической интерпретации набора данных. Обычно мы…