Это исследование искусственного интеллекта от Apple исследует известную проблему поведения языковых моделей глубокого обучения в отношении гендерных стереотипов.

Исследование искусственного интеллекта от Apple анализирует проблему гендерных стереотипов в языковых моделях глубокого обучения.

Большие языковые модели (LLM) сделали огромные успехи за последние несколько месяцев, побивая рекорды во многих различных областях. Наблюдается метеорический рост числа людей, использующих и исследующих Большие Языковые Модели (LLM), особенно в области Обработки Естественного Языка (NLP). Помимо успешного прохождения тестов, таких как SAT, LSAT, медицинских экзаменов и IQ-тестов, эти модели значительно превосходят состояние искусства (SOTA) в широком спектре задач по обработке естественного языка. Эти замечательные достижения вызвали широкое обсуждение принятия и полагания на такие модели в повседневных задачах, начиная от медицинского совета, заканчивая применением в сфере безопасности и классификацией рабочих задач.

Одна из таких новых парадигм тестирования, предложенная группой исследователей из Apple, использует выражения, вероятно, исключенные из текущих данных обучения, используемых LLM. Они показывают, что гендерные предположения широко используются в LLM. Они изучают обоснования LLM для своих решений и устанавливают, что LLM часто делают явные заявления о самих стереотипах, помимо использования утверждений о структуре предложения и грамматике, которые не выдерживают более тщательного исследования. Действия LLM согласуются с Коллективным Интеллектом Западной цивилизации, по крайней мере, в той мере, в которой это закодировано в данных, используемых для обучения LLM. Важно найти этот паттерн поведения, выделить его причины и предложить решения.

Гендерный предубежденность алгоритмов усвоения языка

Гендерный предубежденность в языковых моделях была широко изучена и задокументирована. Согласно исследованию, неконтролируемые языковые модели отражают и усугубляют предубеждения более широкой культуры, в которой они укоренились. Кроме автоматического подписывания, анализа настроения, определения токсичности, машинного перевода и других задач NLP, гендерный предубежденность была продемонстрирована в различных моделях. Пол не является единственной социальной категорией, которая ощущает эффекты этого предубеждения; в него входят также религия, цвет кожи, национальность, инвалидность и профессия.

Бессознательное предубежденность в понимании предложений

Литература по человеческой обработке предложений также широко задокументировала гендерный предубежденность с использованием нескольких экспериментальных методов. В итоге исследования показали, что знание гендерных категорий существительных в тексте может помочь в понимании, а местоимения обычно воспринимаются как относящиеся к субъектам, а не к объектам. В результате, оценки предложений могут снижаться в менее вероятных сценариях, скорость чтения может уменьшаться, и могут возникать неожиданные эффекты, такие как регрессии в экспериментах с отслеживанием взгляда.

Общественный предубежденность к женщинам

Учитывая существование и всеобщность гендерных предубеждений в современной культуре, неудивительно, что результаты языковых моделей также проявляют предубеждения. Гендерный предубежденность была задокументирована во многих областях, от медицины и экономики до образования и права, но полное исследование этих результатов выходит за рамки данной работы. Например, исследования выявили предубеждение в различных предметах и образовательных средах. Даже дети дошкольного возраста подвержены вредным последствиям стереотипизации, которые могут оказывать длительное влияние на самоощущение, выбор академической и профессиональной деятельности и другие аспекты развития.

Дизайн

Ученые разрабатывают рамки для исследования гендерного предубеждения, аналогичные, но отличающиеся от WinoBias. Каждый исследовательский элемент содержит пару существительных, описывающих профессии, одну стереотипно связанную с мужчинами, а другую – с женщинами, а также мужское или женское местоимение. В зависимости от тактики они ожидают различных реакций. Кроме того, тактика может меняться от предложения к предложению в зависимости от предположений и мировых знаний, связанных с лексическими компонентами предложения.

Поскольку исследователи считают, что предложения WinoBias теперь являются частью данных обучения для нескольких LLM, они избегают использования их в своей работе. Вместо этого они создают схемы из 15 предложений в соответствии с упомянутым шаблоном. Кроме того, в отличие от WinoBias, они не выбирают существительные на основе данных от Министерства труда США, а на основе исследований, которые измерили восприятие англоговорящими людьми степени, в которой отдельные существительные, обозначающие профессии, воспринимаются как наклонные к мужчинам или женщинам.

В 2023 году исследователи исследовали четыре общедоступные LLM. Если для модели существует множество вариантов конфигурации, они используют настройки по умолчанию. Они предлагают противоположные результаты и интерпретации отношения между местоимениями и выбором профессии.

Исследователи не рассматривают, как действия LLM, такие как использование (и неприменение) гендерно-нейтральных местоимений, например, единственное они и неопроизводные местоимения, могут отражать и влиять на реальность трансгендерных людей. Исходя из этих результатов в рамках двоичной парадигмы и отсутствия данных из предыдущих исследований, они предполагают, что включение большего числа гендеров создаст еще более печальное представление о производительности LLM. Здесь они признают, что принятие этих предположений может причинить вред маргинализированным людям, не соответствующим этим простым представлениям о гендере, и выражают оптимизм относительно будущих исследований, которые сосредоточатся на этих тонких связях и прольют новый свет на них.

В общем

Чтобы определить, проявляют ли существующие большие языковые модели гендерный предвзятость, исследователи разработали простой сценарий. WinoBias – популярный набор данных о гендерной предвзятости, который, как ожидается, включен в обучающие данные существующих БЯМ. Исследователи изучили четыре БЯМ, выпущенные в первом квартале 2023 года. Они обнаружили последовательные результаты по всем моделям, что говорит о том, что их выводы могут быть применимы и к другим БЯМ, которые сейчас на рынке. Они показывают, что БЯМ делают сексистские предположения о мужчинах и женщинах, особенно те, которые соответствуют представлениям людей о мужских и женских профессиях, а не тем, которые основаны на реальной ситуации, как это показывают данные от Бюро труда США. Одним из ключевых результатов является то, что –

(a) БЯМ используют гендерные стереотипы, когда решают, какой местоименный заменитель наиболее вероятно относится к какому полу; например, БЯМ используют местоимение “he” для обозначения мужчин и “she” для обозначения женщин.

(b) БЯМ склонны усиливать гендерные предубеждения в отношении женщин больше, чем в отношении мужчин. Хотя БЯМ часто делают такое наблюдение, когда их явно попросят, они редко делают это, оставленные самим себе.

(d) БЯМ дают видимо авторитетные обоснования своих решений, которые часто оказываются неверными и, возможно, замаскировывают истинные мотивы их прогнозов.

Таким образом, становится ясной еще одна важная особенность этих моделей: поскольку БЯМ обучаются на предвзятых данных, они склонны отражать и усиливать эти предвзятости, даже если используется обучение с подкреплением с обратной связью от людей. Исследователи считают, что, как и в случае с другими формами общественной предвзятости, защита и справедливое обращение с маргинализированными людьми и группами должны занимать важное место в развитии и образовании БЯМ.