Честная классификация с помощью адверсариальной нейтрализации предубеждений

Правдивая классификация с отменой предубеждений с помощью адверсариальной нейтрализации

Фото от Sushil Nash on Unsplash

В этой статье мы разрабатываем и анализируем задачу бинарной классификации для прогнозирования дохода с точки зрения метрик классификации и справедливости, и предлагаем справедливый классификатор на основе противостояния (адверсарные методы) с оптимизацией гиперпараметров (HPO).

Git: https://github.com/LorenzoPastore/Adversarial-Fair-Classification

Широкое использование алгоритмических процессов принятия решений в таких чувствительных областях, как кредитные рейтинги, правосудие или распределение жилья, вызвало много вопросов о их прозрачности, ответственности и справедливости.

Существующие представления о справедливости в литературе по машинному обучению в значительной степени вдохновлены концепцией дискриминации в социальных науках и праве. Эти представления требуют паритета (т.е. равенства) в обращении, в результате или в обоих случаях [1]. Процесс принятия решений страдает от дискриминации на основе рассматриваемой атрибутивной информации, если его решения (частично) основаны на этой информации, и от дискриминации на основе воздействия, если его результаты несправедливо вредят или благотворно влияют на людей с определенными атрибутами [2].

Одновременное решение обеих форм несправедливости непросто: исключение чувствительных атрибутов из фазы обучения может избежать дискриминации в обращении. Однако если эти атрибуты сильно коррелируют с другими характеристиками, результаты все равно будут зависеть от чувствительных атрибутов, что может привести к неравному воздействию. Кроме того, поскольку автоматизированные системы принятия решений обучаются на исторических данных, если группа с определенным чувствительным атрибутом была несправедливо обращена в прошлом, эта несправедливость может сохраниться в будущих прогнозах через косвенную дискриминацию [3]. С другой стороны, использование чувствительных атрибутов для избежания неравного воздействия будет считаться дискриминацией в обращении и также может привести к обратной дискриминации [4].

Эти определения справедливости могут относиться к группе людей (групповой справедливости), а также к отдельным лицам (индивидуальной справедливости). Групповая справедливость не учитывает индивидуальные заслуги и может привести к выбору лиц с меньшим квалификационным уровнем в группе, в то время как индивидуальная справедливость предполагает метрику схожести лиц для конкретной задачи классификации, которую обычно сложно найти [5].