Оценка общего воздействия экспериментов

Оценка воздействия экспериментов

Как контролировать ложные открытия и выборочные искажения при измерении общего воздействия вашей организации

Фото автора CHUTTERSNAP на Unsplash

Введение

Организации, основанные на данных, часто проводят сотни или тысячи экспериментов одновременно, но каково общее воздействие всех этих экспериментов? Наивный подход заключается в суммировании разницы в средних значений по всем экспериментам, результаты которых показали значительный и положительный эффект от воздействия и которые были внедрены в производство. Однако эту оценку можно существенно искажать, даже если предположить, что между отдельными экспериментами нет корреляции. Мы проведем симуляцию 10 000 экспериментов и покажем, что этот наивный подход завышает фактическое воздействие на 45%!

Мы рассмотрим теоретическую формулу исправления смещения, предложенную Ли и Шэнем [1]. Однако этот подход имеет два недостатка: во-первых, хотя он теоретически несмещен, мы покажем, что его соответствующий оценщик, тем не менее, смещен по сходным причинам, как и исходная проблема. Во-вторых, он не приписывает воздействие индивидуальным экспериментам на уровне.

В этом посте мы исследуем два источника смещения:

  • Смещение ложных открытий – оценка завышена из-за ложных положительных результатов;
  • Смещение выборки – оценка завышена из-за искажения, внесенного критерием принятия решения: недооценки эффекта воздействия подавляются (ложные отрицательные), в то время как завышенные оценки вознаграждаются.

Для обработки ложных открытий мы построим вероятность того, что данный результат действительно ненулевой. Эта вероятность строится путем сравнения плотности p-значений с плотностью остатков из истинных нулей.

Для обработки смещения выборки мы будем вычислять апостериорное распределение для каждого экспериментального результата, используя эмпирическое распределение, скорректированное по ложным открытиям, в качестве нашего априорного распределения.

Этот процесс позволяет получить точную оценку среднего экспериментального воздействия в нашей симулированной серии экспериментов, сокращая исходную 45% ошибку, полученную только на основе эмпирических измерений, до 0,4% ошибки.

Распределение воздействия