Вопросы о вероятности на интервью в реальной жизни аналитиков данных

Вероятностные вопросы на реальных интервью жизни аналитиков данных

Связь вопросов интервью о вероятности с повседневными задачами аналитиков данных

Фото Томаса на Unsplash

Если вы претендуете на роль аналитика данных и ученого-исследователя данных, ваших интервью часто будут сопровождать вопросы о вероятности. Но вот интересно то, что некоторые люди уверены, что эти вопросы имеют мало общего с реальной работой. Вопросы вроде “Почему нам стоит беспокоиться о расчете шансов выпадения 6 пятнистой кости пять раз?” возникают довольно часто. В этой статье я расскажу несколько примеров из реальной жизни, чтобы объяснить, почему понимание вероятности имеет большее значение, чем вы думаете. Для этого давайте рассмотрим несколько задач, ставящихся перед кандидатами на интервью, и посмотрим, как они применяются в реальном мире.

Вопрос 1. Вы подбрасываете монету десять раз подряд. Какова вероятность того, что все они выпадут орлом?

Представьте, что вы являетесь аналитиком данных в службе доставки еды. После каждого заказа клиенты могут оценить качество еды. Основная цель команды – обеспечить первоклассное обслуживание, и если ресторан получает плохие отзывы, вам нужно проверить это. Итак, вот большой вопрос: сколько плохих отзывов должны вызывать проверку ресторана?

Иногда ресторан может получать не очень хорошие отзывы только иногда, и это не их вина. Если ресторан обработал 1000 заказов, у них может оказаться пара плохих отзывов по стечению обстоятельств.

Представьте себе такую ​​ситуацию: около 5% заказов заканчиваются отрицательными отзывами просто по случайности. Тогда количество плохих отзывов на ресторан следует биномиальному распределению Bin(n, p) , где “n” – это количество заказов, а “p” – вероятность плохого отзыва (в нашем случае 5%).

Так, если у ресторана 100 заказов, то есть около 23,4% вероятность, что им поступит как минимум 7 плохих отзывов и намного меньше вероятность, что у них будет как минимум 10 таких отзывов — всего 2,8%. Вы можете проверить это, используя калькулятор здесь. Ваши параметры: n=100, x=10, p=0.05, и не забудьте выбрать опцию x>=X.

Изображение от автора

Вот что стоит запомнить: если вы установите порог в 7 отзывов для ресторана с 100 заказами, вы можете часто проверять рестораны, что означает для вас дополнительные затраты и больше давления на рестораны.

Вопрос 2. Вы тянете карту из стандартной колоды в 52 карты 10 раз. Какова вероятность того, что не выпадет ни одна красная карта?

Теперь представьте себе себя в мире интернет-магазинов. Вы и ваша команда только что внедрили новый метод оплаты, и вас интересует, насколько часто клиенты пользуются этой новой функцией. Но есть подвох – из-за небольшой ошибки, около 2% запросов к новому методу оплаты не проходят. Другими словами, клиенты видят этот новый вариант оплаты в 98% случаев. Чтобы определить, насколько часто клиент выбирает этот способ оплаты, вы хотите сосредоточиться на тех, у кого он был доступен все время. Но здесь возникают сложности.

Подумайте о пользователе с одной только сессией – вы исключаете его из анализа с вероятностью 2%. Теперь представьте себе пользователя с 25 сессиями. Для него вероятность того, что функция не будет доступна хотя бы в одной сессии, составляет 1–0.98²⁵ = 39.7%. Таким образом, вы можете неконсциентно исключить из анализа некоторых из наиболее преданных клиентов с более высокой вероятностью, и это может исказить ваш анализ.

Изображение от автора

Вопрос 3. Если вы кидаете кубик три раза, какова вероятность получить две подряд идущие тройки?

Представьте, что вы работаете в компании по вызову автомобилей, подобной Uber. В некоторых странах люди все еще оплачивают поездки наличными, что может вызывать проблемы у водителей. Им приходится носить сдачу, заниматься наличными операциями и т.д.

Ваша команда беспокоится о том, что если водитель получает три заказа наличными подряд, он может раздражаться и исчерпать все сдачу. Поэтому вы думаете о том, чтобы ограничить заказы наличными в таких ситуациях. Но прежде чем это сделать, вы хотите выяснить, насколько это происходит.

Предположим, что среднее количество поездок водителя в день составляет 10, а 10% из них оплачиваются наличными.

Таким образом, вероятность получить 3 подряд идущие наличные поездки составляет 0.1*0.1*0.1 = 0.001. Но это может быть первая, вторая, третья поездка; вторая, третья, четвертая поездка и так далее. Это означает, что вероятность получить три подряд идущие наличные поездки всего лишь 8*0.1*0.1*0.1 = 0.008%. Кажется, что это довольно низкая вероятность, поэтому вам может быть стоит отложить внедрение этой функции на данный момент.

Изображение автора.

Вопрос 4. Тест на ВИЧ имеет точность 99% (в обе стороны). Только 0.3% населения является ВИЧ +. Какова вероятность того, что случайный человек является ВИЧ + при условии, что тест показывает +?

Оригинальная статья по вопросу здесь.

Вы работаете в банковской или кредитной отрасли, создавая модели для прогнозирования возврата займа клиентами. В целом, 85% всех займов обычно возвращаются. В вашей последней модели, когда она указывает, что клиент вернет займ, она правильна в 92% случаев. Однако, когда она предсказывает, что клиент не вернет займ, она правильна только в 40% случаев. Теперь у вас есть вопрос: Если модель указывает, что клиент не вернет займ, какова на самом деле вероятность, что он вернет его?

Сначала давайте рассчитаем вероятность того, что модель предсказывает “клиент не вернет займ”. Это включает два компонента:

  • Вероятность получения такого предсказания от клиентов, которые не вернут кредит: (1–0.4)*(1–0.85) = 0.09
  • Вероятность получения такого предсказания от клиентов, которые вернут кредит: (1–0.92)*0.85 = 0.068
  • Затем вероятность того, что клиент вернет кредит, если наша модель думает иначе: 0.068/(0.068+0.09) = 0.43
Изображение автора.

Таким образом, если вы считаете, что клиент не вернет кредит, то существует довольно большая вероятность, что он вернет его.

Какова вся суть этой статьи? Она подчеркивает, что понимание вероятности и комбинаторики является важным для дата-сайентистов и аналитиков. В повседневной жизни вы столкнетесь с ситуациями, где понимание вероятности необходимо, иначе вы можете сделать неверные выводы. Однако, с точки зрения работодателей, вопросы на собеседовании должны быть более практичными, чтобы помочь будущим аналитикам осознать практическую применимость этого знания на работе.

Спасибо, что уделили время чтению этой статьи. Я хотел бы услышать ваше мнение, поэтому не стесняйтесь делиться любыми комментариями или вопросами, которые у вас могут быть.