Предвзятость, токсичность и взлом крупных языковых моделей (КЯМ)

Непредвзятость, безопасность и улучшение крупных языковых моделей (КЯМ)

Обзор недавних исследований о волнующих характеристиках LLM

Расширенное изображение получено из видео Galton box из Wikimedia Commons (лицензия Creative Commons Attribution-Share Alike 4.0 International).

ПРЕДУПРЕЖДЕНИЕ: Этот пост содержит примеры предубежденного, токсичного текста, созданного LLM.

Этот пост представляет собой глубокий анализ недавних исследований о предвзятости, токсичности и взломе больших языковых моделей (LLM), особенно ChatGPT и GPT-4. Я рассмотрю этические рекомендации, которые компании в настоящее время используют при разработке LLM, а также подходы, которые они применяют для предотвращения создания нежелательного контента. Затем я рассмотрю недавние научные статьи, изучающие токсичность создаваемого контента, взлом и предвзятость в различных аспектах: пол, раса, медицина, политика, рабочее место и художественная литература.

Предвзятость означает предубеждение в пользу или против определенной группы, личности или вещи, тогда как токсичность относится к неуважительному, вульгарному, грубому или подстрекательскому контенту. LLM обладает предвзятостью и способностью создавать токсичный контент, потому что они обучаются на огромных объемах интернет-данных, которые, к несчастью, отражают как положительные, так и отрицательные стороны человечества, включая все наши предубеждения и токсичность. К счастью, разработчики LLM, такие как OpenAI и Google, предприняли шаги для уменьшения вероятности того, что LLM создадут явно предвзятый или токсичный контент. Однако, как мы увидим, это не означает, что модели являются идеальными – на самом деле LLM усиливают существующие предвзятости и сохраняют способность создавать токсичный контент, несмотря на принятые меры предосторожности.

Процесс “взлома” заключается в предоставлении LLM особенно сложных или провокационных подсказок для использования существующих предвзятостей модели и возможности создавать токсичный контент с нарушением политики компании. Исследователи, изучающие взлом, делают это, чтобы предупредить компании о уязвимостях LLM, чтобы компании могли усовершенствовать принятые меры безопасности и сделать взлом моделей менее вероятным в будущем. Исследование взлома похоже на этический хакинг, когда хакеры находят слабые места системы, чтобы устранить их и улучшить безопасность системы.

Чтение этой статьи может быть полезным для любого, кто интересуется LLM с личной или профессиональной точки зрения, включая энтузиастов искусственного интеллекта, у которых есть…