Тестирование гипотез и A/B-тестирование

Тестирование гипотез и A/B-тестирование

 

В эпоху, когда данные царствуют, бизнесы и организации постоянно ищут способы использовать их силу.

От продуктов, которые вам рекомендуют на Amazon, до контента, который вы видите в социальных сетях, за этим безумием стоит тщательный метод.

В основе этих решений?

A/B-тестирование и гипотезное тестирование.

Но что это такое и почему они так важны в нашем данных-центричном мире?

Давайте всё это узнаем вместе!

 

Магия за вашим экраном

 

Одна из важных целей статистического анализа – найти закономерности в данных и применить их в реальном мире.

И здесь важную роль играет машинное обучение!

МО обычно описывают как процесс нахождения закономерностей в данных и применения их к наборам данных. Благодаря этой новой возможности, многие процессы и решения в мире стали крайне основанными на данных.

Каждый раз, когда вы просматриваете Amazon и получаете рекомендации по продуктам или видите настроенный контент в вашей ленте социальных сетей, здесь нет никакой магии.

Это результат сложного анализа данных и распознавания закономерностей.

Много факторов могут определить, хотел бы кто-то стать покупателем. Это может включать предыдущие поиски, демографические данные пользователей и даже время суток или цвет кнопки.

Именно это можно найти, анализируя закономерности в данных.

Компании, такие как Amazon или Netflix, создали сложные системы рекомендаций, которые анализируют закономерности в поведении пользователей, такие как просмотренные продукты, понравившиеся товары и покупки.

Но как эти компании гарантируют, что видимые ими закономерности являются реальными, учитывая, что данные часто содержат шум и случайные флуктуации?

Ответ кроется в гипотезном тестировании.

 

Гипотезное тестирование: проверка закономерностей в данных

 

Гипотезное тестирование – это статистический метод, используемый для определения вероятности того, что данная гипотеза является истинной. 

Проще говоря, это способ проверить, являются ли наблюдаемые закономерности в данных реальными или просто результатом случайности. 

Процесс обычно включает в себя:

 

#1. Формулировка гипотез

 

Это включает утверждение нулевой гипотезы, которая считается истинной и обычно фактом, что наблюдения являются результатом случайности, и альтернативной гипотезы, которую исследователь стремится доказать.

 

 

#2. Выбор статистики тестирования

 

Это метод и значение, которые будут использоваться для определения истинности нулевой гипотезы.

 

#3. Вычисление p-значения

 

Это вероятность того, что статистика теста, по крайней мере, также значима, как наблюдаемая статистика, при условии, что нулевая гипотеза верна. Проще говоря, это вероятность справа от соответствующей статистики теста. 

Основное преимущество p-значения заключается в том, что его можно проверять на любом желаемом уровне значимости, альфа, сравнивая это вероятность непосредственно с альфа, и это финальный шаг гипотезного тестирования.

Альфа относится к уровню доверия, которое оказывается результатам. Это означает, что альфа 5% означает уровень доверия 95%. Нулевая гипотеза сохраняется только тогда, когда p-значение меньше или равно альфа.

В целом, предпочтительны низкие значения p-значения.

 

 

#4. Извлечение выводов

 

На основе p-значения и выбранного уровня значимости альфа принимается решение о принятии или отклонении нулевой гипотезы.

Например, если компания хочет определить, влияет ли изменение цвета кнопки покупки на продажи, использование гипотезного тестирования может обеспечить структурированный подход к принятию обоснованного решения.

 

A/B-тестирование: практическое применение

 

A/B-тестирование является практическим применением гипотезного тестирования. Это метод, используемый для сравнения двух версий продукта или функции с целью определения, какая из них работает лучше.

Для этого одновременно показываются два варианта разным сегментам пользователей, а затем с помощью метрик успеха и отслеживания определяется, какой вариант успешнее.

Каждый элемент контента, который видит пользователь, должен быть настроен на достижение своего максимального потенциала. Процесс A/B-тестирования на таких платформах аналогичен гипотезному тестированию.

Итак… давайте представим, что мы – социальная сеть, и хотим понять, склонны ли наши пользователи взаимодействовать, используя зеленые или синие кнопки.

    Это включает в себя:

  1. Начальное исследование: Понять текущую ситуацию и определить, какая функция должна быть протестирована. В нашем случае – цвет кнопки.
  2. Формулировка гипотез: Без них тестовая кампания будет бесцельной. При использовании синего цвета пользователи более склонны к взаимодействию.
  3. Случайное назначение: Варианты тестируемой функции случайным образом назначаются пользователям. Мы разделяем пользователей на две разные случайные группы.
  4. Сбор и анализ результатов: После теста результаты собираются, анализируются и успешный вариант внедряется.

 

РЕАЛЬНЫЙ ПРИМЕР A/B-ТЕСТИРОВАНИЯ В БИЗНЕСЕ

 

Имея в виду, что мы – компания социальных сетей, мы можем попытаться описать реальный случай.

Цель: Увеличить вовлеченность пользователей на платформе.

Метрика для измерения: Среднее время, проведенное на платформе. Это могут быть и другие соответствующие метрики, такие как количество опубликованных постов или количество лайков.

 

#Шаг 1: Определите изменение

 

Компания социальных сетей предполагает, что если они переработают свою кнопку “поделиться”, чтобы сделать ее более заметной и легкой для нахождения, больше пользователей будет делиться постами, что приведет к увеличению вовлеченности.

 

#Шаг 2: Создайте две версии

 

  • Версия A (Нулевая): Текущий дизайн платформы с кнопкой “поделиться”, как есть.
  • Версия B (Альтернативная): Та же платформа, но с переработанной кнопкой “поделиться”, которая более заметна.

 

#Шаг 3: Разделите аудиторию

 

Компания случайным образом делит свою базу пользователей на две группы:

  • 50% пользователей увидят Версию A.
  • 50% пользователей увидят Версию B.

 

#Шаг 4: Проведите тест

 

Компания проводит тест в течение определенного периода, скажем, 30 дней. В это время они собирают данные по метрикам вовлеченности пользователей для обеих групп.

 

#Шаг 5: Анализ результатов

 

После периода тестирования компания анализирует данные:

  • Увеличилось ли среднее время, проведенное на платформе для группы Версии B?

 

#Шаг 6: Примите решение

 

Есть два основных варианта, когда все данные собраны:

  • Если Версия B показала лучший результат по вовлеченности по сравнению с Версией A, компания решает внедрить новый дизайн кнопки “поделиться” для всех пользователей.
  • Если разница незначительна или Версия A показала лучший результат, компания решает сохранить оригинальный дизайн и пересмотреть свой подход.

 

#Шаг 7: Итерация

 

Всегда помните, что итерация – это ключевой момент!

Компания не останавливается на этом. Теперь они могут тестировать другие элементы, чтобы непрерывно оптимизировать вовлеченность.

 

Очень важно убедиться в том, что группы выбираются случайным образом, и единственное различие, которое они испытывают, – это изменение, которое тестируется. Это гарантирует, что любые обнаруженные различия во вовлеченности можно приписать изменению, а не какому-то другому внешнему фактору.

 

Инференциальная статистика: не только различия

 

Хотя может показаться простым просто сравнивать результаты двух групп, инференциальная статистика, такая как гипотезные тесты, предлагает более структурированный подход.

Например, при тестировании, улучшает ли новый метод обучения производительность водителей доставки, простое сравнение результатов до и после обучения может ввести в заблуждение из-за внешних факторов, таких как погодные условия.

Используя A/B-тестирование, эти внешние факторы можно исключить, обеспечивая, что обнаруженные различия действительно обусловлены воздействием.

 

Навигация по данным

 

В современном мире, где решения все больше основаны на данных, инструменты, такие как A/B-тестирование и гипотезные тесты, являются незаменимыми. Они предлагают научный подход к принятию решений, обеспечивая, что бизнесы и организации не полагаются только на интуицию, а на эмпирические доказательства.

По мере того как мы продолжаем генерировать больше данных и технологии развиваются, значимость этих инструментов только усилится.

Всегда помните, в огромном океане данных не только сбор информации важен, но и умение работать с ней и использовать ее в свою пользу.

И с гипотезными тестами и A/B-тестированием у нас есть компас для эффективной навигации по этим водам.

Добро пожаловать в увлекательный мир принятия решений на основе данных!     Хосеп Феррер – инженер аналитики из Барселоны. Он окончил образование в области физической инженерии и в настоящее время работает в области науки о данных, применяемой к человеческой мобильности. Он является частичным создателем контента, сфокусированным на науке о данных и технологиях. Вы можете связаться с ним в LinkedIn, Twitter или VoAGI.