10 основных статистических концепций на простом английском

10 основных концепций статистики на простом английском языке

 

Статистика играет важную роль во многих отраслях, включая науку о данных, бизнес, социальные науки и другие. Однако многие основные статистические концепции могут показаться сложными и запутанными, особенно для начинающих без сильного математического фона. В данной статье мы рассмотрим 10 основных статистических концепций в простых и непрофессиональных терминах с целью передачи этих концепций доступным и понятным образом.

 

1. Распределение вероятностей

 Распределение вероятностей показывает вероятность возникновения различных результатов в процессе. Например, предположим, у нас есть мешок с равным количеством красных, синих и зеленых шариков. Если мы выбираем шарики случайным образом, распределение вероятностей позволяет нам узнать шансы на выбор каждого цвета. Оно покажет, что есть равные шансы 1/3 или вероятность 33% выбора красного, синего или зеленого. Многие типы данных в реальном мире часто могут быть описаны известными распределениями вероятностей, хотя это не всегда так.

 

2. Проверка гипотез

 Проверка гипотез позволяет нам делать утверждения на основе данных, аналогично тому, как судебный процесс стремится доказать вину или невиновность на основе имеющегося доказательства. Мы начинаем с гипотезы или утверждения, называемого нулевой гипотезой. Затем мы проверяем, подтверждают ли наблюдаемые данные это утверждение или опровергают его с определенным уровнем достоверности. Например, производитель лекарств может утверждать, что их новое лекарство снимает боль быстрее, чем существующие. Исследователи могут проверить это утверждение, анализируя результаты клинических испытаний. Основываясь на данных, они могут либо отклонить утверждение, если доказательств недостаточно, либо не отвергнуть нулевую гипотезу, указывая на то, что нет достаточных доказательств, чтобы сказать, что новое лекарство не снижает боль быстрее.

 

3. Доверительные интервалы

 При выборке данных из популяции доверительные интервалы предоставляют диапазон значений, в пределах которого мы можем быть достаточно уверены, что истинное среднее значение популяции находится. Например, если мы утверждаем, что средний рост мужчин в какой-то стране составляет 172 см с 95% доверительным интервалом от 170 см до 174 см, то мы с 95% уверенностью можем сказать, что средний рост для всех мужчин находится в диапазоне от 170 см до 174 см. Доверительный интервал, как правило, становится меньше с увеличением объема выборки, при условии, что остальные факторы, такие как изменчивость, остаются постоянными.

 

4. Регрессионный анализ

 Регрессионный анализ помогает нам понять, как изменения в одной переменной влияют на другую переменную. Например, мы можем проанализировать данные, чтобы узнать, как рекламные затраты влияют на продажи. Уравнение регрессии затем количественно определяет отношение, позволяя нам предсказывать будущие продажи на основе прогнозируемых рекламных расходов. В случае более чем двух переменных, множественная регрессия учитывает несколько объяснительных переменных для выделения их индивидуального влияния на переменную результата.

 

5. ANOVA (Анализ дисперсии)

 ANOVA позволяет сравнивать средние значения по нескольким группам, чтобы определить, являются ли они значимо различными. Например, розничный торговец может проверить уровень удовлетворенности клиентов с тремя вариантами упаковки. Анализируя результаты опроса, ANOVA может подтвердить, различаются ли уровни удовлетворенности в трех группах. Если различия существуют, это означает, что не все варианты упаковки приводят к одинаковому уровню удовлетворенности. Это позволяет выбрать оптимальную упаковку.

 

6. P-значение

 P-значение указывает вероятность получения результатов, по крайней мере, таких же экстремальных, как наблюдаемые данные, при условии, что нулевая гипотеза верна. Маленькое значение P-значения предоставляет сильные доказательства против нулевой гипотезы, поэтому вы можете рассмотреть отклонение ее в пользу альтернативной гипотезы. Вернемся к примеру с клиническими испытаниями: маленькое значение P-значения при сравнении снятия боли новым и стандартным лекарством будет указывать на сильные статистические доказательства того, что новое лекарство действует быстрее.

 

7. Байесова статистика

 В то время как частотный подход к статистике полностью опирается на данные, байесова статистика включает существующие убеждения вместе с новыми доказательствами. По мере получения большего количества данных, мы обновляем свои убеждения. Например, предположим, что вероятность дождя сегодня на основе прогнозов составляет 50%. Если мы замечаем темные облака над головой, теорема Байеса позволяет нам обновить эту вероятность до 70% на основе новых доказательств. Байесовские методы, которые могут требовать вычислительных мощностей, могут быть популярными в области науки о данных.

 

8. Стандартное отклонение

 Стандартное отклонение определяет, насколько данные разбросаны от среднего значения. Низкое стандартное отклонение означает, что точки сконцентрированы вокруг среднего значения, в то время как высокое значение стандартного отклонения указывает на большую вариацию. Например, результаты тестов 85, 88, 89, 90 имеют меньшее стандартное отклонение, чем оценки 60, 75, 90, 100. Стандартное отклонение крайне полезно в статистике и является основой многих анализов.

 

9. Коэффициент корреляции

 Коэффициент корреляции измеряет силу линейной связи между двумя переменными, от -1 до +1. Значения, близкие к +/-1, указывают на сильную корреляцию, в то время как значения, близкие к 0, означают слабую корреляцию. Например, мы можем рассчитать корреляцию между размером дома и его ценой. Сильная положительная корреляция подразумевает, что более крупные дома имеют tend prices. Важно отметить, что корреляция показывает отношение между переменными, но не означает, что одна переменная вызывает другую. 10. Центральная предельная теорема

 Центральная предельная теорема более точна, когда объем выборки большой. Она утверждает, что когда мы берем такие выборки из популяции и рассчитываем их средние значения, эти значения следуют нормальному распределению, независимо от исходного распределения. Например, если мы проводим опросы групп людей о предпочтениях в фильмах, приводим средние значения для каждой группы и повторяем этот процесс, средние значения образуют колоколообразную кривую, даже если индивидуальные мнения варьируются.

 Понимание статистических понятий обеспечивает аналитический подход к просмотру мира и начало интерпретации данных, чтобы мы могли принимать основанные на доказательствах информированные решения. Будь то в области науки о данных, бизнеса, школы или в нашей повседневной жизни, статистика является мощным инструментом, который может предоставить нам бесконечное понимание того, как работает мир. Я надеюсь, что этот статья предоставила интуитивно понятное и всестороннее введение в некоторые из этих идей. 

****[Мэтью Майо](https://www.kdnuggets.com/wp-content/uploads/./profile-pic.jpg)**** (@mattmayo13) имеет степень магистра в области компьютерных наук и диплом о профессиональной подготовке в области добычи данных. В качестве главного редактора VoAGI Мэтью старается сделать сложные концепции науки о данных доступными. Его профессиональные интересы включают обработку естественного языка, алгоритмы машинного обучения и изучение развивающегося ИИ. Он приводится в движение стремлением демократизировать знания в сообществе науки о данных. Мэтью занимается программированием с шести лет.