Исследование искусственного интеллекта раскрывает механику нечестности в больших языковых моделях глубокий погружение в технику формулировки и анализ нейронных сетей

Раскрытие механики нечестности в больших языковых моделях исследование искусственного интеллекта и глубокий анализ нейронных сетей

Понимание больших языковых моделей (LLM) и поощрение их честного поведения становится все более важным, поскольку эти модели продемонстрировали растущие возможности и получили широкое распространение в обществе. Исследователи утверждают, что новые риски, такие как масштабируемая дезинформация, манипуляция, мошенничество, вмешательство в выборы или спекулятивный риск потери контроля, возникают из-за потенциала моделей быть обманчивыми (что они определяют как «систематическое наведение ложных убеждений с целью достижения иного результата, чем правда»). Исследования показывают, что, даже если активации моделей содержат необходимую информацию, им может потребоваться не только несоответствие, чтобы достичь правильного результата.

Предыдущие исследования различают понятия правдивости и честности, говоря, что первое воздерживается от выдвижения ложных утверждений, тогда как второе воздерживается от делания утверждений, в которые оно не “верит”. Это различие помогает разобраться. Таким образом, модель может создавать вводящие в заблуждение утверждения из-за несоответствия в виде нечестности, а не из-за отсутствия навыков. С тех пор были предложены несколько методов для решения проблемы честности LLM путем изучения внутреннего состояния модели для поиска правдивых представлений. Были предложены идеи относительно методов “черного ящика” для выявления и вызывания обмана моделей языка массового масштаба. Одновременно предыдущие исследования показывают, что улучшение извлечения внутренних представлений модели может быть достигнуто путем активного учета понятия.

Кроме того, в моделях существует “критический” промежуточный слой в контекстном окружении, за которым представления правильных или неправильных ответов в соответствии с контекстом начинают расходиться, явление, известное как “аналитическое мышление”. Вдохновленные предыдущими исследованиями, исследователи расширили фокус с неправильного классифицирования контекстного обучения на умышленное обманчивое поведение, при котором они дали явные указания модели лгать. Используя методы анализа и механической интерпретируемости, исследовательская группа из Корнельского университета, Университета Пенсильвании и Университета Мэриленда надеется идентифицировать и понять, какие слои и узлы внимания в модели несут ответственность за нечестность в данном контексте.

Вот их вклады:

1. Исследовательская группа показывает, что, как показали значительно ниже шанса точности на вопросы правда/ложь, LLaMA-2-70b-chat может быть обучена лгать. Согласно команде исследователей, это может быть довольно сложно и должно быть тщательно и быстро спроектировано.

2. Используя активационное запечатывание и анализ, исследовательская группа находит независимые доказательства для пяти модельных слоев, критичных для нечестного поведения.

3. Только 46 узлов внимания, или 0,9% всех узлов в сети, подвергались эффективным причинным воздействиям исследовательской группой, которые заставляли обманутые модели отвечать правдиво. Эти воздействия устойчивы при разделении набора данных и запросов.

В двух словах, исследовательская группа рассматривает простой случай лжи, где они дают инструкции LLM о том, говорить правду или нет. Их результаты показывают, что большие модели могут проявлять нечестное поведение, давая правильные ответы, когда их просят быть честными, и ошибочные ответы, если их побуждают лгать. Эти результаты основаны на ранее проведенных исследованиях, которые предлагают, что анализ активаций может обобщиться на случаи, не укладывающиеся в распределение, при возбуждении. Однако исследовательская группа также обнаружила, что это может потребовать длительного проектирования запроса из-за проблем, таких как склонность модели выводить “False” токен раньше, чем “True” токен в последовательности.

Используя внедрение префикса, исследовательская группа может последовательно вызывать ложь. Затем команда сравнивает активации недобросовестных и честных моделей, находя слои и узлы внимания, ответственные за ложь. С помощью линейных проб исследовательская группа обнаруживает, что слои от начала до середины видят сходные модельные представления для честных и лживых запросов, прежде чем они резко начинают расходиться и становиться противоположными. Это может указывать на то, что предыдущие слои должны иметь контекстно-инвариантное представление правды, как того требует тело литературы. Активационное запечатывание – это еще один инструмент, который исследовательская группа использует для более глубокого понимания работы определенных слоев и узлов. Исследователи обнаружили, что локализованные воздействия могут полностью устранить несоответствие между честными и лживыми моделями в обоих направлениях.

Очень важно, что эти воздействия на всего лишь 46 узлов внимания продемонстрировали высокую степень устойчивости к перекрестным данным и запросам. Исследовательская группа фокусируется на обнаружении лжи, используя доступный набор данных и специально указывает модели лгать, в отличие от ранее проведенных исследований, которые в основном рассматривали точность и целостность моделей, которые по умолчанию являются честными. Благодаря этому контексту исследователи узнали многое о тонкостях поощрения нечестного поведения и способах, которыми большие модели вступают в нечестное поведение. Чтобы гарантировать этичное и безопасное применение LLM в реальном мире, исследовательская группа надеется, что дальнейшие исследования в этом контексте приведут к новым подходам к предотвращению лжи LLM.