Техники выборки в анализе данных

Выборка в анализе данных

Как выбрать подходящий метод выборки данных для ваших данных

Фото от Ryoji Iwata на Unsplash

Большое внимание уделяется аналитическим методам и алгоритмам, используемым в проектах по науке о данных, извлечению значимых идей из данных и обнаружению ценной информации. Но одинаково важно (возможно, даже еще важнее) подготовка данных перед началом проекта; качество данных – это основа, на которой базируется любой анализ данных или проект машинного обучения. Было бы наивно ожидать качественных результатов от анализа с низкокачественными входными данными – мусор на входе, мусор на выходе, как гласит поговорка. Поэтому важно убедиться, что собранные образцы данных имеют достаточное качество. Но как выбрать подходящую технику выборки для ваших данных?

Фото от Ian Parker на Unsplash

В этом посте я намереваюсь дать обзор некоторых методов выборки для сбора данных и дать рекомендации о том, как выбрать наиболее оптимальные методы для ваших данных. Описанные здесь методы выборки следующие:

  1. Простая случайная выборка
  2. Стратифицированная выборка
  3. Кластерная выборка
  4. Систематическая выборка

Каждый метод имеет свои преимущества и недостатки, и определенные методы более подходят, чем другие, в зависимости от потребностей данных. В этом посте будут подробно описаны эти методы выборки и приведены примеры случаев использования, когда рекомендуются эти методы.

Простая случайная выборка

Простая случайная выборка (SRS) делает то, что подразумевает название – выборка производится из популяции случайным образом, независимо от других условий, таких как характеристики популяции. Это обычно эффективно, когда популяция считается относительно однородной, т. е. каждый элемент популяции ожидается быть похожим на другие.

Преимущество этого заключается в том, что благодаря случайности сложно внести предвзятость в данные – достаточно большой размер выборки теоретически будет представительным для общей популяции, что идеально, если конечная цель – это…