Как использовать t-тест и его непараметрический аналог

Использование t-теста и его непараметрического аналога

Вы действительно понимаете этот тест, который, вероятно, вы изучили в средней школе?

Фото Isabella Fischer на Unsplash

Как специалист по обработке данных, вам стоит хорошо разбираться в статистике. Ведь это один из основных камней в этой области.

Это первая статья в серии, которая попытается дать краткий, практический обзор различных статистических тестов и ситуаций, в которых они должны быть использованы. Информация будет сбалансированной – не настолько длинной и технической, чтобы быть недоступной, но и не такой краткой, чтобы быть бесполезной.

В этой первой статье я расскажу о одном из наиболее известных статистических тестов: t-тесте. Даже если вы не совсем знаете, что это такое, вероятно, вы слышали этот термин. К концу этой статьи вы должны понять, как работает этот тест и когда его следует использовать.

Если вы вообще не знакомы с разработкой статистических тестов, я настоятельно рекомендую ознакомиться со вводной статьей к этой серии – Введение в основные концепции, необходимые для запуска статистических тестов.

Итак, давайте начнем.

Что такое t-тест?

В основе t-теста лежит сравнение данных из двух различных выборок. Он учитывает два фактора: разницу между средними значениями выборок и изменчивость данных выборок. Логически это имеет смысл – простое сравнение средних значений недостаточно, чтобы утверждать, что ваши выборки действительно различаются (средние значения могут существенно отличаться при сходных наборах данных или быть похожими при сильно отличающихся наборах данных).

T-тест вычисляет статистику, известную как t-оценка, которая учитывает оба вышеуказанных фактора. Ее можно вычислить вручную, используя несколько неприятную формулу, но практически любое статистическое программное обеспечение будет автоматически ее вычислять. Если вы вычисляете статистику вручную, вы можете сравнить ее с критическим значением t из предварительно подготовленных таблиц (большая t-оценка соответствует p-значению, меньшему чем желаемый уровень для вашего теста, что указывает на статистически значимое различие между выборками). Еще раз, статистическое программное обеспечение обычно просто сообщает вам, является ли вычисленное значение t статистически значимым или нет…