Метод захвата-перезахвата

Method of capture-recapture

Оценка размера популяции без ее полного подсчета

Когда вы ловите наших особей, убедитесь, что не причиняете им вреда, так как вам придется освободить их позже. Фото Анны Нюгорд на Unsplash

В этой статье я хочу представить статистический метод для оценки размера популяции без полного ее подсчета, который называется методом захвата и повторного захвата. Исходя из биологических предметных областей, эту процедуру можно также применять во многих других областях и сценариях, которые могут быть интересными для специалистов по обработке данных и связанным профессиям.

Сначала я продемонстрирую процедуру на биологическом примере, а затем расскажу о ее статистическом фоне и свойствах, позволяющих ее использовать. После этого я представлю несколько примеров из различных областей, чтобы продемонстрировать возможности метода захвата и повторного захвата для различных сценариев.

Сколько улиток в моем саду?

Многим не нравятся улитки, но я все равно считаю их очаровательными. Давайте посчитаем их, не причиняя вреда. Фото Кшиштофа Невольного на Unsplash

Предположим, я хочу узнать, сколько улиток живет в моем саду. Я могу попытаться их всех пересчитать, но как я узнаю, когда закончу? Даже если я не найду больше улиток, я никогда не смогу быть уверенным, что их больше нет. Вместо этого я могу использовать другой метод.

В первый день я уделяю полчаса сбору улиток и их пересчету. Кроме того, я помечаю каждую улитку точкой краски, прежде чем отпустить ее обратно в сад. Предположим, я собрал 21 улитку. Могу ли я уже дать оценку общего количества улиток в моем саду? Нет, пока нет (помимо того, что улиток должно быть как минимум 21), но я еще не закончил.

На следующий день я снова иду в сад и начинаю пересчитывать улиток в течение полутора часов. Некоторые из улиток, которых я нахожу в этот день, уже имеют точку краски на раковине, то есть я уже находил их вчера, в то время как другие нет (то есть я не находил эту конкретную улитку вчера). Предположим, я насчитал 28 улиток в этот день, из них 9 уже помечены точкой краски. Теперь я могу дать оценку общего количества улиток. Давайте посчитаем.

Во второй день доля 9/28 улиток я уже нашел в предыдущий день. Это соотношение должно быть равно отношению количества улиток, которых я нашел в первый день, к общему количеству улиток, то есть 21/N = 9/28, где N – общее количество улиток. Я могу переформулировать это, чтобы получить количество улиток N = (21*28)/9 = 65.

Почему так? Во второй день определенная доля особей (скажем, p%) обладает определенным свойством (например, помечены точкой). Если я случайным образом выбираю образец из популяции, я ожидаю, что p% моего образца также будет обладать этим свойством. Это очень интуитивно: если вы случайным образом выбираете образец из популяции вашего города, вы также ожидаете, что соотношение полов в вашем образце отражает соотношение полов в общей популяции, верно? Однако во второй день мы знаем это соотношение p, которого мы не знали в первый день (когда красили улиток в первый день, мы не знали, какую долю улиток мы уже поймали), поэтому в первый день мы покрасили p% всех улиток. Теперь легко вывести общее количество улиток из этого: если я покрасил 21 улитку, и сейчас я знаю, что это примерно 9/28=32% от общей популяции, то всего в саду примерно 65 улиток (21 примерно 32% от 65).

Условия для повторного захвата

Перед использованием метода Capture-ReCapture убедитесь, что выполнены необходимые условия. Фото от Sung Jin Cho на Unsplash

Помимо подсчета количества улиток в вашем саду, есть и другие сценарии, где вы можете применить вышеупомянутую процедуру. Как вы можете себе представить, расстояние между двумя этапами выборки не обязательно должно быть одним днем, и маркировку также можно выполнить иным способом, чем прямое маркирование отдельных особей. Вы также можете просто вести список особей, которые вы выбрали на первом этапе, при условии, что вы сможете легко определить, присутствует ли особь, которую вы находите на второй итерации, в списке. Однако для применения метода Capture-ReCapture необходимо выполнение некоторых условий, которые описаны ниже:

  • На обоих точках сбора данных популяция должна быть одинаковой. В частности, это требует, чтобы между двумя моментами времени не добавлялись или удалялись особи.
  • На обоих точках сбора данных должен быть случайный и независимый выбор из распределения. То есть каждая особь должна иметь одинаковую вероятность быть пойманной. В частности, маркировка или ее отсутствие не должны влиять на вероятность быть выбранным на другой основе.
  • Количество выбранных особей на каждом этапе должно быть достаточно большим, чтобы создать значимое пересечение. Легко представить, что случайная выборка 100 книг из вашей местной библиотеки, где количество книг составляет миллионы, не создает никакого пересечения и, следовательно, не помогает вам в оценке.

Примеры применения

Спойлер: Медицина - это область, где часто используются варианты метода Capture-ReCapture. Фото от Ksenia Yakovleva на Unsplash

Теперь, когда мы поняли метод Capture-ReCapture, давайте рассмотрим некоторые примеры его использования. Он пригоден, когда мы хотим определить размер популяции, не имея возможности полностью его подсчитать. Однако различные сценарии могут иметь свои особенности, которые необходимо учесть при использовании метода.

Подсчет количества гостей на вечеринке

На следующей вечеринке, на которой вы присутствуете, вы можете потратить пять минут на маркировку некоторых людей (либо прямо маркируя их, либо ведя список), а через несколько минут снова случайно выбрать некоторых людей. Однако убедитесь, что вы действительно выбираете случайно и независимо. То есть, вы должны поймать людей из разных мест и не быть предвзятыми к людям, которых вы знаете или не знаете. Также убедитесь, что расстояние между двумя точками сбора данных не слишком большое, иначе ваша оценка может быть искажена тем, что люди покинули вечеринку за это время.

Получение из двух независимых списков

Вариант метода Capture-ReCapture не использует повторный захват в другой момент времени, а использует два независимых источника данных (которые были получены из одного и того же распределения) и их пересечение. Таким образом, этот метод часто используется в медицинских сценариях, давайте рассмотрим пример оценки распространенности заболевания.

Предположим, у меня есть список пациентов из больницы, в котором перечислены 142 человека, страдающих определенным заболеванием, и у меня есть другой список, полученный от Национальной службы здравоохранения, в котором перечислены 442 человека, страдающих этим заболеванием. Предположим, что 71 человек появляются в обоих списках. Тогда мы можем использовать формулу из вышеупомянутого примера и получить наш результат (142*442)/71 = 884. То есть, 884 человека предположительно страдают от этого заболевания.

Самое важное для этого варианта – это то, что два списка действительно независимы. То есть вероятность того, что человек будет включен в один список, не должна отличаться в том, включен ли этот человек в другой список или наоборот.

Оценка числа потенциальных клиентов

Предположим, у вас есть веб-сайт, на котором вы продаете свой захватывающий новый продукт. В один день вы фиксируете всех посетителей на своем веб-сайте (например, отслеживая их IP-адреса), и то же самое вы делаете через несколько дней. Путем пересечения между этими двумя днями вы можете оценить количество потенциальных клиентов для вашего продукта. Однако вы должны понимать, что в этом сценарии может легко возникнуть нарушение важного предположения, а именно независимости выборок в обоих случаях. В частности, можно утверждать, что посещение веб-сайта в первый день может увеличить вероятность повторного посещения веб-сайта.

Резюме

Мы рассмотрели несколько примеров метода Capture-ReCapture, который позволяет оценить размер популяции, не подсчитывая ее полностью. Вместо подсчета каждого индивидуума в популяции, метод предполагает проведение двух независимых выборок из популяции (в разное время или из разных источников) и использование их пересечения для оценки размера популяции. Это может быть использовано в различных областях, когда полное наблюдение за популяцией не является возможным.

Дополнительная информация

Пример подсчета улиток в саду я адаптировал из следующей книги:

  • Кит Йейтс (2019). Математика жизни и смерти. Почему математика – практически все. Издательство Quercus Ltd, Лондон.

Обзор метода Capture-ReCapture, используемого в медицинских областях, можно найти здесь:

  • Ramos, P. L., Sousa, I., Santana, R., Morgan, W. H., Gordon, K., Crewe, J., … & Macedo, A. F. (2020). Обзор методов регистрации и возможностей в глазной и зрительной науке. Офтальмологическая эпидемиология, 27(4), 310–324.

Понравилась статья? Подпишитесь на мои будущие публикации.