«Не забывайте о доверительных интервалах для вашего продукта машинного обучения»

«Не забывайте о доверительных интервалах для вашего продукта машинного обучения» - Почему доверительные интервалы так важны для вашего продукта машинного обучения

Машинное обучение никогда не бывает 100% правильным. Поэтому модель МО полезна только тогда, когда пользователи понимают неопределенность прогнозов.

Почти каждый день мы сталкиваемся с запуском нового продукта, сервиса или набора данных, основанных на машинном обучении. Это эра искусственного интеллекта, и все же редко какой-либо из этих продуктов информирует о том, насколько пользователь должен полагаться на полученные результаты. Однако исследования показывают, что для принятия правильных решений необходимо знать, когда можно доверять искусственному интеллекту, а когда нет. В противном случае мы получаем ситуацию, когда пользователям приходится часто испытывать модель, чтобы понять, когда можно доверять ее прогнозам, а когда нет, и определить, будет ли предлагаемый продукт полезен для них.

Причина такого подхода проб и ошибок со стороны пользователя заключается в том, что каждая модель (независимо от того, основана она на машинном обучении или статистике) строится на данных и их неопределенности. Подлинная основная информация, предназначенная для предсказания модели, не отражает действительности. В противном случае вам не понадобилась бы модель в первую очередь. Таким образом, полученная модель будет только предоставлять оценку, а не истинное значение.

Короче говоря, правильность моделей машинного обучения и статистических моделей неопределена и не всегда можно доверять.

Пример: предсказание перемещений между странами

Давайте рассмотрим пример (Рисунок 1). Представьте себе продукт, который предоставляет вам информацию о количестве людей, переезжающих из одной страны в другую. Конечно, существуют данные (например, отчеты о налогах), которые будут содержать эту информацию, но действительно ли эти данные полностью представляют всю популяцию перемещений? Переезжает ли каждый студент, иммигрант или экспат, изменяя свои декларации о налогах? Нет, очень вероятно, что это не так. Таким образом, даже простой продукт, такой как предоставление информации о перемещениях, предрасположен к определенной смещенности в сторону выборки исходных данных (например, публично доступные отчеты о налогах). Легко представить, насколько могут быть предвзятые более сложные продукты.

Для машинного обучения эти ограничения становятся еще более серьезными из-за его вероятностной природы, многомерного ввода и того, что каждый ввод представляет лишь небольшую часть популяции. Таким образом, основная модель будет инклинироваться к большинству случаев, описанных в тренировочных данных, и будет расходиться с…