Основы статистической оценки и вывода

Базовые принципы статистической оценки и вывода

Закон больших чисел и здравое статистическое рассуждение являются основой для эффективного статистического вывода в науке о данных

Фото Gabriel Ghnassia на Unsplash

Закон больших чисел и здравое статистическое рассуждение являются основой для эффективного статистического вывода в науке о данных.

Следующий текст в значительной степени основан на моей книге «Data Science — Введение в статистику и машинное обучение» [Plaue 2023], недавно опубликованной Springer Nature.

Введение

Из нашего повседневного опыта мы имеем интуитивное представление о типичном росте тела у людей в населении. В большей части мира взрослые люди обычно имеют рост от 1,60 м до 1,80 м, в то время как люди, которые выше двух метров, встречаются редко. С помощью частотного распределения роста тела это интуитивное предположение может быть подтверждено числовыми доказательствами:

Таблица 1: Частота роста человеческого тела. Изображение от автора.

Эти данные основаны на наборе данных, собранном Центрами контроля и профилактики заболеваний США (CDC), который содержит, среди прочих характеристик, данные о росте более 340 000 человек [CDC 2018]. Изучение этой таблицы частотности показывает, что на самом деле более половины опрошенных людей заявили о своем росте от 1,60 м до 1,80 м.

Несмотря на то, что выборка имеет ограниченный размер, мы уверены, что наши исследования позволяют нам делать выводы о всей популяции. Например, только на основе данных мы можем с некоторой уверенностью заключить, что человек не может вырасти до высоты трех метров.

Одной из важных целей стохастики является строгое математическое обоснование таких выводов. Область можно разделить на две подобласти:

  • Теория вероятностей занимается математическим определением и исследованием понятия вероятности. Центральными объектами такого исследования являются случайные переменные: переменные, значения которых не определены или неизвестны точно, но подчиняются неопределенности. Другими словами, вероятность может быть определена только для того, что случайная переменная принимает значения в определенном диапазоне.
  • Статистический вывод основан на предположении, что статистические наблюдения и показатели, такие как частоты, средние значения и т. д., являются значениями или реализациями случайных переменных. Соответственно, в данной области исследуется, в какой степени характеристики случайных переменных могут быть оценены на основе выборочных данных. В частности, при определенных упрощающих предположениях можно оценить точность или ошибку такой оценки.

Давайте рассмотрим простой пример статистического вывода: определение того, является ли монета справедливой или предвзятой, наблюдая последовательность подкидываний монеты. Мы можем предположить, что результат броска монеты определяется дискретной случайной переменной X_1, которая принимает значения ноль (представляет орла) или один (представляет решку). Если бы мы повторили бросок той же монеты, мы можем предположить, что результат можно описать второй случайной переменной X_2, которая независима от первой, но имеет то же распределение.

Если у нас нет никаких доказательств, чтобы подтвердить гипотезу о том, что монета предвзята, мы можем предположить, что монета справедливая. Другими словами, мы ожидаем, что орлы появятся с той же вероятностью, что и решки. При этом предположении, известном как нулевая гипотеза, если мы проделаем эксперимент несколько раз, мы ожидаем, что орлы появятся примерно столько же раз, сколько и решки.

Наоборот, данные позволяют нам сделать выводы о истинном распределении. Например, если мы наблюдаем очень различные частоты для герба и решки, например, частоту герба 70% по сравнению с 30% для решки, то – если размер выборки достаточно большой – мы будем убеждены, что нам нужно исправить наше первоначальное предположение о равной вероятности. Другими словами, нам может потребоваться отказаться от предположения о том, что монета справедлива.

В приведенном выше примере частота появления герба в данных действует как оценщик вероятности случайного события “монета показывает герб”. Здравый смысл подсказывает, что наше доверие к таким оценкам возрастает с увеличением размера выборки. Например, если дисбаланс, описанный выше, был обнаружен только в десяти подбрасываниях монеты (семь гербов и три решки), мы, вероятно, еще не будем уверены, что у нас есть несбалансированная монета. Вполне возможно, что нулевая гипотеза о справедливой монете остается истинной. В повседневном понимании, результат эксперимента также может быть приписан “чистой случайности”. Однако, если мы наблюдаем семьдесят случаев герба из ста подбрасываний монеты, это будет гораздо более убедительным доказательством в пользу альтернативной гипотезы о том, что монета несбалансирована!

Центральная предельная теорема: от оценок до доверительных интервалов

Оценки – один из самых основных инструментов в арсенале статистиков и специалистов по анализу данных. Например, арифметическое среднее, полученное из достаточно большой выборки, предоставляет представление о типичном значении, которые может принимать определенная переменная. В машинном обучении мы оцениваем параметры модели на обучающих данных, которые должны содержать достаточное количество помеченных примеров.

Опыт и интуиция подсказывают нам, что большие выборки и большое количество обучающих данных позволяют проводить более точные статистические процедуры и создавать лучшие прогностические модели. Постатейные статистики предлагают более устойчивую основу для поддержки этой интуиции, часто называемой законом больших чисел. Кроме того, мы получаем более глубокое понимание того, что является “достаточно большой выборкой”, рассчитывая доверительные интервалы, а не полагаясь только на оценки. Доверительные интервалы позволяют нам определить диапазоны значений, в пределах которых мы можем считать, что находится истинный параметр, который мы пытаемся оценить.

В следующих разделах мы представим математическую основу для вычисления доверительных интервалов в самодостаточном виде, в основе которой лежит центральная предельная теорема.

Закон больших чисел Чебышева

Точно так же, как мы ожидаем, что относительная частота будет хорошим оценщиком вероятности события или результата бинарной переменной, мы ожидаем, что арифметическое среднее будет хорошим оценщиком ожидаемого значения случайной переменной, порождающей числовые данные, которые мы наблюдаем.

Важно отметить, что сама эта оценка также представляет собой случайную величину. Если мы бросаем кость 50 раз и записываем среднее число, а затем повторяем эксперимент, мы, скорее всего, получим немного разные значения. Если мы много раз повторяем эксперимент, то арифметические средние, которые мы записываем, будут следовать некоторому распределению. Однако для больших выборок мы ожидаем, что они будут показывать только небольшое расхождение и будут сосредоточены вокруг истинного ожидаемого значения. Это ключевое сообщение закона больших чисел Чебышева, который мы рассмотрим ниже.

Прежде чем мы это сделаем, мы представляем важный инструмент в теории вероятностей – неравенство Чебышева. Предположим, что у нас есть некоторая случайная величина X с конечным средним μ и дисперсией σ². Тогда для любого ε > 0 следующее верно, где Pr( · ) означает “вероятность”:

Этот результат соответствует нашему интуитивному пониманию меры разброса: чем меньше дисперсия, тем больше вероятность того, что случайная величина примет значения, близкие к среднему.

Например, вероятность найти наблюдаемое значение случайной величины в пределах шести средних квадратических отклонений от своего ожидаемого значения очень высока, по крайней мере, 97%. Другими словами, вероятность того, что случайная величина принимает значение, отклоняющееся от среднего более чем на шесть средних квадратических отклонений, очень низкая, менее 3%. Этот результат справедлив для распределений любой формы при условии, что ожидаемое значение и дисперсия являются конечными значениями.

Предположим, что мы наблюдаем числовые значения в выборке, которые являются реализациями случайных переменных X_1, …, X_N. Мы предполагаем, что эти случайные переменные являются взаимно независимыми и следуют одному и тому же распределению, что является свойством, известным как независимые и одинаково распределенные, или i.i.d. в краткой форме. Это предположение обосновано, когда наблюдения являются результатом независимых опытов или случайного выбора из популяции. Однако важно отметить, что это предположение не всегда может оправдываться.

Кроме того, мы предполагаем, что существуют и являются конечными математическое ожидание μ и дисперсия σ² каждой случайной переменной. Так как переменные следуют одному и тому же распределению, эти значения одинаковы для каждой переменной. Далее мы рассматриваем следующую случайную переменную, которая вычисляет среднее арифметическое:

Сначала мы показываем, что оценка среднего арифметического x̄ является несмещенной оценкой: ее значения распределены вокруг истинного среднего значения μ. Это следует непосредственно из линейности математического ожидания E[ · ]:

Затем мы хотим показать, что для больших выборок значения оценки среднего арифметического не отклоняются слишком сильно от истинного среднего. Поскольку X_1, …, X_N предполагается, что они взаимно независимы, они попарно некоррелированы. Легко проверить, что для взаимно некоррелированных случайных переменных дисперсию можно представить следующим образом, поскольку все перекрестные члены исчезают:

Таким образом, дисперсия оценки среднего арифметического задается следующим образом:

Теперь, когда мы знаем среднее и дисперсию оценки среднего арифметического, мы можем применить неравенство Чебышева:

Этот результат показывает, что среднее арифметическое является состоятельной оценкой математического ожидания: оно сходится по вероятности к истинному среднему значению. Другими словами, для больших выборок ожидаемое значение μ исходного распределения и среднее арифметическое выборки мало отличаются друг от друга.

Центральная предельная теорема Линдеберга-Леви

Закон больших чисел Чебышева утверждает, что при достаточно общих условиях среднее арифметическое большой выборки с большой вероятностью находится рядом с истинным средним значением исходного распределения. Возможно, удивительно, но мы можем быть достаточно точными относительно того, как средние значения больших выборок распределяются вокруг истинного ожидания. Это ключевое сообщение центральной предельной теоремы Линдеберга-Леви. Для любых чисел a, b, где a < b:

Подынтегральная функция справа в уравнении является плотностью вероятности стандартного нормального распределения: нормального распределения – с хорошо известной колоколообразной формой – с нулевым средним и единичной дисперсией.

В общем случае говорят, что последовательность случайных переменных сходится по распределению к некоторой случайной переменной, если их кумулятивные функции распределения сходятся по точкам к распределению этой случайной переменной. Таким образом, математически центральная предельная теорема утверждает, что следующая последовательность случайных переменных всегда сходится по распределению к стандартной нормально распределенной случайной переменной, независимо от того, как X_1, … X_N распределены (при условии, что они i.i.d.):

Статистический метод центральной предельной теоремы подразумевает, что при многократном сборе достаточно большой выборки из одной и той же популяции, средние значения этих выборок будут распределены нормально. Эта теорема имеет практическое значение, поскольку она позволяет нам делать точные утверждения о точности статистических оценок. Общее заблуждение заключается в том, что эта теорема является причиной того, что многие эмпирические распределения могут быть приближены нормальным распределением на практике. Однако это не так.

Хотя доказательство этой теоремы требует применения современных аналитических инструментов, о которых мы здесь не будем говорить (см., например, [Durrett 2019, Теорема 3.4.1]), мы можем понять ее практические последствия на примере численного примера. Рассмотрим следующую функцию плотности вероятности, которую мы предполагаем использовать для данных, подлежащих исследованию:

Рис. 1: Произвольная функция плотности вероятности. Изображение автора.

Чтобы подчеркнуть, что теорема верна для любой формы исходного распределения, обратите внимание на то, что функция плотности не похожа на колокол. Мы можем изучить гистограммы большого количества средних значений, вычисленных из выборок размером N, которые многократно извлекались из распределения с использованием численного моделирования. Для выборок, состоящих только из одного экземпляра, N = 1, мы не можем ожидать применения предельной теоремы – мы просто воспроизводим исходное распределение:

Рис. 2: Гистограмма, полученная из произвольного распределения (случай N = 1). Изображение автора.

Однако, даже для относительно небольшого размера выборки N = 5, распределение средних арифметических значений – то есть многократное выборочное извлечение и вычисление (x_1 + … + x_5) / 5 – имеет типичную колоколообразную форму нормального распределения:

Рис. 3: Распределение средних значений выборок размером N = 5. Изображение автора.

Грант Сандерсон, на своем YouTube-канале 3Blue1Brown, сделал видео, которое предоставляет дополнительное интуитивное понимание центральной предельной теоремы и приятно смотреть его.

Интервальная оценка и тестирование гипотез

Центральная предельная теорема важна, потому что она позволяет нам указывать не только точечную оценку, а также доверительный интервал, при оценке среднего значения некоторой популяции: вместо одного оценочного значения мы указываем интервал, в котором мы можем быть достаточно уверены, что содержится истинное среднее значение. Например, предположим, что мы хотим гарантировать правильность нашей оценки с 95% доверием для достаточно больших выборок. Мы можем достигнуть этого, установив доверительный интервал с уровнем доверия γ = 0,95:

Мы предполагаем следующий ансамбль с номером z > 0, который предстоит определить:

Центральная предельная теорема позволяет нам сделать следующий вывод:

Таким образом, z = z(γ) определяется интегральными пределами, которые обеспечивают площадь γ под стандартной нормальной кривой. Например, z(0.95) = 1.96 или z(0.99) = 2.58.

В заключение, интервальная оценка среднего при уровне доверия γ на основе достаточно большой выборки (обычно используются эмпирические правила N > 30 или N > 50) выглядит следующим образом:

Для получения указанной формулы мы заменили среднее значение μ и стандартное отклонение σ на их эмпирические оценки x̄ и s(x) соответственно. Это разумное приближение для достаточно больших выборок и может быть обосновано теоремой Слуцкого, которая, в основном, утверждает, что операции арифметики коммутируют с предельным переходом, если хотя бы один из слагаемых/множителей сходится к константе.

Вместо уровня доверия γ можно указать уровень значимости или вероятность ошибки, α = 1 − γ.

Давайте рассмотрим практический пример. 99,9%-ый доверительный интервал для среднего роста мужчин-респондентов в опросе Центров контроля и профилактики заболеваний составляет [177,98 см, 178,10 см]. Эта высокая статистическая точность обусловлена большим образцовым объемом N с более чем 190 000 опрошенных мужчин. Мы хотим продемонстрировать, как работает интервальная оценка для меньшего объема выборки. Для этого мы многократно проводим случайную выборку из N = 50 значений роста и вычисляем соответствующий 95% доверительный интервал. Результат можно увидеть на следующей диаграмме:

Рисунок 5: Интервальная оценка роста на основе выборок размером N = 50. Изображение автора.

Обратите внимание, что большинство интервальных оценок, отображаемых в виде вертикальных столбцов погрешности, также содержат истинное значение 178 см, отображаемое пунктирной горизонтальной линией. Однако некоторые из них этого не содержат, примерно пять из ста – это ожидаемо и соответствует указанной вероятности ошибки α = 5%. Всегда есть возможность, что интервальная оценка будет отличаться от истинного среднего значения в популяции, особенно при низких уровнях доверия.

Еще одно важное применение центральной предельной теоремы, тесно связанное с интервальной оценкой, заключается в проведении гипотезных тестов. Предположим, у нас есть основания полагать, что математическое ожидание случайной величины X не равно некоторому значению μ. В этом случае мы хотим опровергнуть нулевую гипотезу E[X] = μ. Мы можем сказать, что эта нулевая гипотеза не согласуется с данными, если наблюдаемое среднее значение не включено в следующий интервал:

Давайте вернемся к примеру возможно предвзятой монеты из введения. Мы регистрируем результат каждого броска монеты, что дает последовательность бинарных значений, где единица обозначает “орла”, а ноль обозначает “решку”. Среднее арифметическое этой последовательности равно относительной частоте выпадения “орла”, и мы можем применить то, что мы узнали до этого. Предположим, у нас есть основания полагать, что монета несправедлива. Нулевая гипотеза утверждает, что монета справедлива, т.е. E[X] = 0.5. В первом эксперименте мы видим, что после десяти бросков монета падает орлом вверх семь раз. При уровне доверия γ = 0.95 доверительный интервал для нулевой гипотезы для этого эксперимента будет следующим: [0.24, 0.76]. Фактическое наблюдаемое соотношение 0.7 все еще находится в этом интервале. Поэтому нулевая гипотеза справедливой монеты не может быть отвергнута при данном уровне доверия.

Образец размера относительно мал, и на самом деле рекомендуется использовать Студенческий тест. Т-тест корректирует критический стандартный балл z(0,95) = 1,96 до 2,26 и, следовательно, приводит к еще более широкому доверительному интервалу.

Если, с другой стороны, мы наблюдали семьдесят из ста монетных бросков с результатом “орел”, следующий доверительный интервал был бы результатом, при условии, что нулевая гипотеза верна: [0,41, 0,59]. В этом случае реальное наблюдаемое соотношение 0,7 не содержится в доверительном интервале. Таким образом, нулевая гипотеза должна быть отвергнута, и мы можем заключить — при данном уровне доверия — что монета имеет предвзятость.

Мы также можем исследовать, равны ли средние значения двух популяций, основываясь на выборке из каждой из них. Двусторонний, двухвыборочный Z-тест предполагает отклонение нулевой гипотезы о равных средних, если выполнено следующее условие:

Сделать выводы из данных: ошибки статистических выводов

Выполнение статистических тестов и вычисление доверительных интервалов не заменяет должного статистического рассуждения: статистически значимые эффекты могут все равно иметь мало практического значения или представлять собой ложные соотношения.

Статистическая vs. практическая значимость: величина эффекта

Особенно при очень больших выборках может быть достаточно распространено обнаружение статистически значимых различий в среднем или других типах эффектов, которые считаются значимыми согласно статистическим тестам. Однако эти эффекты могут быть незначительными по величине.

Например: наборы данных Центров по контролю и профилактике заболеваний позволяют сравнивать разные штаты США. Можем сравнить средний рост мужчин-респондентов в Род-Айленде с теми в Нью-Йорке. Применяя Z-тест, мы получаем оценку 0,33 см при уровне доверия 95%. Это значение ниже наблюдаемой разницы 0,44 см. Следовательно, разница является статистически значимой. Однако она очень мала по величине, и, следовательно, мы можем ожидать, что она будет иметь мало практической значимости.

Во многих случаях величину эффекта можно оценить, указав его в естественных единицах. В приведенном выше примере мы выбрали метрические единицы длины. Другая возможность — указать его в единицах, соответствующих нескольким стандартным отклонениям. Cohen’s d — это мера практической значимости статистического эффекта. Он определяется как разность средних, деленная на общую дисперсию [Cohen 1988, стр. 67]:

Разница в 0,44 см, наблюдаемая в приведенном примере, соответствует значению 0,05 для Cohen’s d. При сравнении среднего роста респондентов в Пуэрто-Рико и в Нью-Йорке, мы получаем значение Cohen’s d равное 0,50, что соответствует разнице в метрических единицах в 4,1 см.

Правила для интерпретации значений Cohen’s d отражены в следующей таблице [Sawiloswky 2009]:

Таблица 2: Величина эффекта в соответствии с Cohen’s d. Изображение автора.

Статистический вывод против причинно-следственного объяснения: парадокс Симпсона

Безусловно, одной из наиболее часто упоминаемых проблем при статистическом выводе является повторяемая фраза “корреляция не означает причинности”. Этот концепт часто иллюстрируется на примерах явно неправильных и иногда комических корреляций, например, причисление дефицита пиратов к глобальному потеплению.

Однако, в практическом применении, часто бывает далеко неочевидно, является ли статистическая связь действительно ложной или свидетельствует о причинно-следственной связи. Один из источников ложной корреляции, не сразу заметный, это наличие неизвестных скрытых переменных. Фактически, наличие неизвестного фактора может привести к перевороту корреляции при изучении конкретных подгрупп населения – феномен, известный как парадокс Симпсона.

Парадокс Симпсона можно проиллюстрировать на следующем примере (см. [Blyth 1972], [Bickel et al. 1975] и [Freedman et al. 2007, Chap. 2, Sect. 4]): В шести крупнейших отделах университета доля принятых женских заявителей составляет p_x = 30% от общего числа 1835 человек, по сравнению с показателем p_y = 45% среди мужских заявителей (2691 человек). Мы можем использовать Z-тест, чтобы заключить, что разница в показателях принятия на уровне 99% доверия является значимой.

Приведены данные, разобранные по отделам университета:

Таблица 3: Уровень принятия университета по отделам. Изображение автора.

Для каждого отдела можно вычислить двусторонний показатель теста и сравнить его со значением наблюдаемой разницы в показателе принятия, | p_y – p_x |. Также, на основе имеющихся данных, мы можем вычислить показатель принятия p для каждого отдела, независимо от пола:

Таблица 4: Анализ уровня принятия в университете. Изображение автора.

Только в отделе А наблюдается значимая разница в уровне принятия. В отличие от сравнения по всем отделам, она в пользу женских заявительниц. Отделы А и В – это отделы, в которых заявители имеют наибольшие шансы быть принятыми. 51% мужчин выбирают эти отделы для подачи заявлений, но только 7% всех женских заявителей делают то же самое. Поэтому данные подтверждают гипотезу о том, что женщины более вероятно подают заявления на более конкурентные направления, что означает, что они имеют больше шансов быть отклоненными.

Вывод

Закон больших чисел обеспечивает надежное основание для процесса статистической оценки, и его действительность строго подтверждается центральной предельной теоремой. Статистические оценки становятся более точными при рассмотрении большего количества данных, и во многих случаях мы можем вычислить метрики, которые количественно характеризуют как точность, так и уверенность в результатах.

Однако важно подчеркнуть, что простая “вычислительная” точка зрения недостаточна для звучного статистического рассуждения и эффективной работы с данными. Во-первых, даже когда случайные ошибки минимизированы, статистические результаты все равно могут быть подвержены влиянию различных систематических ошибок. Они могут возникать из-за таких факторов, как смещение отклика, неисправность измерительного оборудования или дефектное конструктирование исследования, которое вносит смещение выборки. Следовательно, тщательное рассмотрение потенциальных источников смещения является неотъемлемым условием для надежного статистического анализа.

Во-вторых, при интерпретации результатов критически важно понимать, что статистическая значимость и корреляция в отдельности недостаточны для оценки практической значимости или основных причин наблюдаемых эффектов. Статистические выводы должны быть контекстуализированы, чтобы определить их важность в реальном мире и предложить объяснения наблюдаемым явлениям.

Ссылки

[Plaue 2023] Маттиас Плауэ. «Data Science — Введение в статистику и машинное обучение». Springer Berlin, Heidelberg. 2023.

[CDC 2018] Центры контроля и профилактики заболеваний (ЦКПЗ). Данные опроса системы мониторинга факторов риска поведения. Атланта, Джорджия: Министерство здравоохранения и социальных услуг США, Центры контроля и профилактики заболеваний. 2018.

Данные ЦКПЗ находятся в общественном достоянии и могут быть использованы без разрешения.

[Durrett 2019] Рик Дурретт. Вероятность: Теория и примеры. 5-е изд. Cambridge University Press, май 2019.

[Cohen 1988] Якоб Коэн. Статистический анализ мощности для поведенческих наук. 2-е изд. Нью-Джерси, США: Lawrence Earlbaum Associates, 1988.

[Sawilowsky 2009] Шломо С. Савиловский. «Новые правила оценки эффекта размера». В: Journal of Modern Applied Statistical Methods 8.2 (нояб. 2009), сс. 597–599.

[Blyth 1972] Колин Р. Блайт. «Об парадоксе Симпсона и принципе наверняка». В: Journal of the American Statistical Association 67.338 (июнь 1972), сс. 364–366.

[Bickel et al. 1975] П. Дж. Бикел, Э. А. Хаммел и Дж. У. О’Коннелл. «Половое смещение в поступлении на аспирантуру: данные из Беркли». В: Science 187.4175 (февр. 1975), сс. 398–404.

[Freedman et al. 2007] Дэвид Фридман, Роберт Писани и Роджер Первес. Статистика. 4-е изд. W. W. Norton & Company, февр. 2007.