Парето, законы власти и толстые хвосты

Парето, законы власти и объёмные хвосты

Что они не учат вас в статистике

Черный лебедь. Изображение от Canva.

Статистика – это фундамент науки о данных и аналитики. Она дает нам мощный набор инструментов для объективного ответа на сложные вопросы. Однако многие из наших любимых статистических инструментов становятся бесполезными при применении к определенному классу данных – законам мощности.

В этой статье я представлю руководство для начинающих по законам мощности и описываю 3 основных проблемы при использовании традиционных статистических методов для их анализа.

Оглавление

  1. Фон – Гауссово распределение, правило Парето 80–20, законы мощности и разница между весом и богатством.
  2. 3 проблемы STAT 101 – вам нужно (много) больше данных.
  3. Толстые хвосты – избегание контроверз и количественная оценка различий между Гауссом и Парето.

Взвешивая своего бариста

Многие величины в природе имеют тенденцию сгруппировываться вокруг типичного значения. Например, если бы вы сидели в (полном) кофейне и измеряли вес всех бариста и клиентов, входящих и выходящих, вы (в конечном итоге) обнаружили бы такой же график, как на рисунке ниже.

Пример Гауссового распределения. Техническое примечание: при измерении веса взрослого человека для каждого пола появится Гауссово подобное распределение. Изображение от автора.

Этот график является примером Гауссового распределения, с которым вы могли столкнуться в STAT 101 или в бизнес-статистике. Красота гауссового распределения заключается в том, что мы можем уловить большую часть существенной информации о базовом явлении (например, весе барист) с помощью всего одного числа – среднего значения.

Еще дальше, мы можем получить еще больше информации, определив насколько данные разбросаны с помощью мер, таких как стандартное отклонение и дисперсия.

Эти понятия, которые каждый изучает во введении в статистику, дают нам мощный способ анализировать данные. Однако не все величины, которые нас интересуют, обладают этой качественной особенностью сгруппировываться вокруг типичного значения.

Принцип Парето (правило 80–20)

Вы, возможно, слышали о так называемом “правиле 80–20” в бизнесе, с разметкой “80% продаж приходится на 20% клиентов”. Однако эта идея не происходит из сферы продаж и маркетинга. Она возникла из исследования Вильфредо Парето об итальянском землевладении (ок. 1890 года) [1].

Парето отметил, что около 80% земли в Италии принадлежит около 20% населения. Оказывается, это простое наблюдение указывает на статистические свойства, которые очень отличаются от гауссовых распределений, которые мы все знаем и любим.

А именно, “правило 80–20” является следствием распределения Парето. Это иллюстрируется на графике ниже.

Распределение Парето, где 20% населения приходится на 80% объема. Изображение от автора.

Ключевая разница между гауссовым и Парето распределениями в том, что Парето не имеет “типичного значения”, которое мы можем использовать для эффективного обобщения распределения.

Другими словами, зная средний вес итальянского мужчины (~ 175 фунтов), вы получите представление о том, что ожидать в своей следующей поездке в Рим, но знание средней численности населения итальянского города (~ 7 500) бесполезно.

Распределение степени

Распределение Парето является частью более широкого класса распределений, называемых законом степеней. Мы можем определить закон степеней следующим образом [2].

Определение класса распределения степеней [3]. Изображение от автора.

Где PDF () обозначает функцию плотности вероятности случайной величины X. x – это конкретное значение для X. L (x) – это медленно меняющаяся положительная функция с областью определения [x_min, ∞]. И x_min – это минимальное значение, для которого справедлив закон степеней (т. е. PDF (x) = 0 для x < x_min) [2]. И α – это число (обычно от 2 до 3).

Примеры распределения степеней с различными значениями α. Примечание: α ≈ 1.16 подразумевает правило 80–20. Изображение от автора.

Как мы видим на графиках выше, законы степеней имеют существенные отличия от нормального распределения. Это образует своего рода дихотомию между распределениями, похожими на гауссово и распределениями Парето. Другими словами, нормальное распределение и законы степеней являются концептуальными якорями для качественной категоризации вещей в реальном мире.

Медиокристан против Экстремистана

Автор Нассим Николас Талеб описывает эту дихотомию между вещами, похожими на гауссовы, и вещами, похожими на распределение Парето, с помощью двух категорий, которые он называет “Медиокристан” и “Экстремистан”.

Медиокристан представляет собой землю вещей, похожих на гауссовы. Фундаментальное свойство его жителей заключается в том, что никое отдельное наблюдение не будет значительно влиять на совокупную статистику [3]. Например, предположим, вы взвешиваете каждого туриста на Колизее во время своей поездки в Рим и вычисляете средний вес. Если бы вы добавили самого тяжелого итальянца на Земле, средний вес был бы практически неизменным (+0,5%).

На другом полюсе этого концептуального ландшафта находится Экстремистан, где мы наблюдаем противоположное статистическое свойство. То есть в Экстремистане одно наблюдение может (и часто делает) сместить совокупную статистику. Рассмотрим тех же туристов на Колизее, но вместо взвешивания их веса вы спрашиваете каждого их чистый капитал и вычисляете среднее. В отличие от предыдущего примера, это среднее изменится кардинально (+2500%), если мы добавим в выборку самого богатого итальянца, Джованни Ферреро (семья, производящая шоколад и лесной орех).

Чтобы лучше понять каждую из этих категорий, рассмотрим примеры, перечисленные на изображении ниже.

Предметы из Медиокристана и Экстремистана соответственно [3]. Изображение от автора.

Как видно, жители Экстремистана, похожие на Парето, не являются малым или тривиальным множеством. Фактически, многие вещи, которые нам важны, не похожи на гауссовы кривые, изучаемые в учебе по статистике 101.

Хотя это может показаться излишне техническим и дидактическим, использование наших привычных статистических методов и интуиций для анализа данных, сгенерированных в Экстремистане и даже (в некоторых случаях) существенных рисков, имеет серьезные ограничения.

3 проблемы, связанные с мышлением, основанном на статистике 101

Как мы видели на Римском колизее, данные, полученные из Медиокристана (например, вес), имеют противоположные характеристики по сравнению с Экстремистаном (например, богатство).

Одна из самых больших проблем при использовании техник статистики 101 для анализа степенных законов (т.е. данных из Экстремистана) заключается в том, что количество таких метрик, как среднее, стандартное отклонение, дисперсия, корреляция и т.д., имеют мало практического значения.

Это всё проистекает из одной основной проблемы – недостаточность данных.

В статистике мы узнаем о законе больших чисел, который говорит о том, что если мы берем N случайных выборок, среднее значение выборки будет приближаться к истинному значению по мере N → ∞. Это верно для ЛЮБОГО распределения (с конечным средним): гауссовского, степенного закона, равномерного распределения, назовите его.

Однако оказывается, что это асимптотическое поведение происходит медленнее для некоторых распределений, чем для других (например, медленнее для степенных законов, чем для гауссовских). И, на практике, где у нас (неизбежно) есть конечные наборы данных, это может вызывать проблемы. Здесь я выделяю 3 таких проблемы.

Проблема 1: Среднее значение не имеет смысла (а также многие другие метрики)

Всякий раз, когда мы хотим сравнить два набора значений (например, продажи в апреле и мае, дорожно-транспортные происшествия в ЛА и Нью-Йорке, исходы пациентов в контрольной и тестовой группах), мы часто вычисляем среднее значение. Это дает нам интуитивный способ сжать несколько значений в одно представительное число.

Это работает невероятно хорошо для данных, которые следуют хорошо известному гауссовскому распределению, потому что можно точно оценить среднее значение при небольшом объеме выборки (N=~10). Однако, этот подход не работает при работе с данными, следующими по закону степени.

Мы можем увидеть это, сравнивая выборочное среднее значение для данных, следующих закону степени, при увеличении объема выборки, как показано на графиках ниже для значений N=100, N=1,000 и N=10,000. Выборочные средние значения для данных с законом степени обозначены оранжевым цветом, а для гауссовских данных – синим.

Сходимость выборочного среднего для 3 разных объемов выборки. Изображение автора.

Как видно, выборочные средние значения для данных с законом степени более непостоянны (и смещены) по сравнению с гауссовскими данными. Даже когда объем выборки увеличивается до N=100,000, точность данных с законом степени все равно значительно хуже, чем мы видим в гауссовских данных для N=100. Это показано на графике ниже.

Хотя среднее значение отчасти стабилизируется при N=1,000,000, оно все равно значительно смещено по сравнению с гауссовскими данными. Изображение автора.

Это непостоянное поведение присуще не только среднему значению. Оно также относится к многим широко используемым статистическим метрикам. Ниже приведены графики сходимости для медианы, стандартного отклонения, дисперсии, минимума, максимума, 1-го и 99-го процентилей, эксцесса и энтропии.

Графики сходимости других метрик при 3 объемах выборки. Сверху вниз: медиана, стандартное отклонение, дисперсия, минимум, максимум, 1-й и 99-й процентили, эксцесс и энтропия. Изображение автора.

Как видно, некоторые метрики оказываются более стабильными, чем другие. Например, медиана, минимум и процентили довольно хорошо сохранияют свои значения. В то же время стандартное отклонение, дисперсия, максимум, эксцесс и энтропия не могут установиться на одно число.

Из этой последней группы я хочу особо выделить максимум, потому что эта величина может показаться сходящейся на небольшой выборке, но по мере увеличения N она может возрасти на порядок (как видно на графике для N=10 000). Это особенно опасно, потому что это может привести к ложному ощущению предсказуемости и безопасности.

Чтобы связать это с реальным миром, если основные данные были бы, скажем, смерти от эпидемии, самая большая пандемия за последние 100 лет была бы в 10 раз меньше, чем самая большая пандемия за 1 000 лет.

Например, самая смертоносная пандемия за последние 100 лет была испанский грипп (~50 миллионов смертей) [4], поэтому, если смерти от пандемии распределены по степенному закону, мы можем ожидать пандемии, унесущей жизни 500 миллионов человек в ближайшие 1 000 лет (прошу прощения за мрачный пример).

Это подчеркивает ключевую особенность данных из “Экстремистана”, которая заключается в том, что редкие события определяют общую статистику.

Однако, здесь не останавливается влияние редких событий только на статистические показатели. Гравитация редких событий также влияет на нашу способность делать эффективные прогнозы.

Проблема 2: Регрессия не работает

Регрессия сводится к прогнозированию на основе прошлых данных. Однако, как мы видели в Проблеме 1, при работе с законами степени у нас может не быть достаточно данных для точного учета истинной статистики.

Эта проблема усугубляется при выполнении регрессии с переменными, следующими закону степени с α ≤ 2. Это связано с тем, что α ≤ 2 означает, что распределение имеет бесконечную дисперсию, что нарушает ключевое предположение популярных методов регрессии (например, метод наименьших квадратов).

Однако, при работе с данными на практике мы никогда не получим бесконечную дисперсию (данные будут ограничены). Это создает проблему, аналогичную Проблеме 1: результаты могут казаться стабильными, но они перестают быть такими по мере сбора дополнительных данных.

Другими словами, ваш R² может выглядеть отлично при разработке модели, но быстро деградирует по мере увеличения объема выборки и приближения к фактическому значению R²=0.

Мы можем увидеть это на примере (искусственного). Предположим, у нас есть две переменные, X и Y, которые линейно связаны (т.е. Y = mX + b), причем X имеет нормальное распределение с добавочным шумом, следующим распределению степени. Когда мы проводим регрессию на небольшой выборке (N=100), аппроксимация кажется хорошей.

Аппроксимация линейной регрессии с добавочным шумом, следующим степенному закону, для небольшого размера выборки (N=100). Изображение автора.

Однако, по мере сбора большего количества данных (N=100 000 000), R² корректно приближается к фактическому значению (т.е. R²=0).

R² приближается к фактическому значению (т.е. R²=0) с увеличением размера выборки. Изображение автора.

Проблема 3: Вероятности отклоняются от выигрышей

На этом этапе вы можете подумать: “Шоу… в чем дело? Что если моя модель не может предсказать редкие события? Она в большинстве случаев правильна”.

Я согласен с вами. При работе с данными из “Экстремистана” легко быть правым в большинстве случаев, поскольку большая часть данных не относится к хвосту. Однако, вероятности – это только половина истории при прогнозировании результатов и принятии решений.

Вторая половина истории – выигрыш. Другими словами, речь идет не только о том, как часто вы правы (или ошибаетесь), но также о том, что происходит, когда вы правы (или ошибаетесь).

Например, если вам предложен ежедневный мультивитамин, который работает отлично в 99,9% случаев, но убивает вас в 0,1% случаев, вы, вероятно, выберете другую марку (или будете есть более полезные продукты).

Основываться исключительно на вероятностях для принятия решений особенно вредно, когда речь идет о Законах Мощности и “правиле 80-20”. Вот пример из бизнеса.

Предположим, у нас есть компания по разработке программного обеспечения с 3 предложениями: 1) бесплатный с рекламой, 2) премиум и 3) корпоративный, где распределение клиентов и дохода для каждого предложения показаны в таблице ниже.

Распределение клиентов и дохода для каждого предложения. Изображение автора.

Компания хочет выпустить обновление, ускоряющее время обработки на 50%. Будучи передовой технологической компанией, основанной на данных, они провели опрос среди активных пользователей и выяснили, что 95% клиентов предпочли обновленное программное обеспечение. Имея данные в руках, компания дала зеленый свет для обновления программного обеспечения.

Однако через шесть недель компания оказалась в раздражении, потому что доход снизился на 50%.

Оказалось, что после обновления три клиента отказались от услуги, потому что обновление удалило устаревшие интеграции данных, которые были важны для их использования. Но это были не просто какие-то клиенты. Это были топ-3 клиента компании (~1%), составляющие около 50% ее дохода (с учетом всех дополнительных продаж).

Такие (фатальные) ошибки можно совершить, когда сосредоточиваешься только на вероятностях (95% клиентов полюбили обновление). Мораль этой истории заключается в том, что при работе с данными о редких событиях из Экстримистана ошибиться 1 раз может перекрыть 99 правильных (и даже больше).

Код для создания графиков 👇

YouTube-Blog/power-laws на main · ShawhinT/YouTube-Blog

Коды для дополнения видео на YouTube и блог-постов на VoAGI. – YouTube-Blog/power-laws на main · ShawhinT/YouTube-Blog

github.com

Споры в Экстримистане

Законы Мощности, подобно гауссовым, являются идеализированной математической абстракцией. Однако реальный мир неопределен и редко (если вообще) соответствует нашим красивым и точным построениям. Это вызвало некоторые споры о том, является ли определенное распределение действительно законом мощности.

Одной из точек спора было то, является ли богатство законом мощности (как предполагалось работой Парето) или просто лог-нормальным распределением [5].

Некоторые споры могут быть объяснены наблюдением о том, что лог-нормальное распределение ведет себя как гауссово распределение при низком значении сигмы и как закон мощности при высоком значении сигмы [2].

Однако, чтобы избежать споров, мы можем отойти от вопроса, подходит ли определенная информация под закон мощности, и сосредоточиться вместо этого на широких хвостах.

Широкие хвосты – измерение различий между Медиокристаном и Экстримистаном

Широкие хвосты – это более общая идея, чем распределения Парето и законы мощности. Мы можем подумать о том, что “широкие хвосты” – это степень, в которой редкие события определяют общую статистику распределения. С этой точки зрения широкие хвосты находятся на спектре от неполных (гауссовых) до очень широких (Парето 80-20).

Это прямо соответствует идее Медиокристана против Экстримистана, рассмотренной ранее. Ниже приведена визуализация разных распределений на этой концептуальной оси [2].

Карта Медиокристана и Экстремистана. Примечание: Поскольку толстохвостость существует в спектре, называть распределение «Толстохвостым» или нет в некотором отношении субъективно. Изображение автора.

Хотя нет точной меры толстохвостости, существует множество метрик и эвристик, которые мы можем использовать на практике, чтобы понять, где находится данное распределение на этой карте Медиокристана и Экстремистана. Вот несколько подходов.

  • Степень закона степеней: использование индекса закона степеней, то есть α – чем ниже альфа, тем толще хвосты [2]
  • Негауссовость: эксцесс (не работает для закона степеней с α ≤ 4)
  • Дисперсия для логнормального распределения
  • Метрика Талеба κ [6]

Выводы

Центральной проблемой с толстохвостыми данными является то, что у нас не всегда достаточно данных, чтобы точно описать их статистические свойства. Это позволяет сделать несколько выводов, которые я оставлю для практикующих аналитиков данных.

  • Постройте распределения, например, гистограммы, функции плотности вероятности и функции распределения
  • Задайте себе вопрос – эти данные из Медиокристана или Экстремистана (или где-то посередине)?
  • При создании моделей спросите себя – какова ценность правильного прогноза и стоимость неправильного?
  • Если работаете с (очень) толстохвостыми данными, не игнорируйте редкие события. Вместо этого разберитесь, как их использовать (например, можете ли вы сделать особую акцию для своих лучших 1% клиентов, чтобы привлечь больше бизнеса?)

Код для воспроизведения графиков доступен здесь.

Ресурсы

Связь: Мой сайт | Записаться на звонок | Спросите у меня что-нибудь

Соцсети: YouTube 🎥 | LinkedIn | Twitter

Поддержка: Угостить меня кофе ☕️

The Data Entrepreneurs

Сообщество предпринимателей в сфере данных. 👉 Присоединяйтесь к Дискорду!

VoAGI.com

[1] Принцип Парето. (2023, 30 октября). В Википедии. https://en.wikipedia.org/wiki/Pareto_principle

[2] arXiv:2001.10488 [stat.OT]

[3] Taleb, N.N. (2007). Черный лебедь: влияние чрезвычайно маловероятного. Нью-Йорк; Random House.

[4] https://www.archives.gov/exhibits/influenza-epidemic/

[5] arXiv:0706.1062 [physics.data-an]

[6] Taleb, N. N. (2019). Как много данных вам нужно? Операционная, предасимптотическая метрика для толстохвостости. Международный журнал прогнозирования, 35(2), 677–686. https://doi.org/10.1016/j.ijforecast.2018.10.003