Исследователи Корнелльского университета раскрывают сведения о подсказках языковой модели глубокий погружение в то, как вероятности следующего токена могут раскрыть скрытый текст.

Исследователи Корнелльского университета как вероятности следующего токена раскрывают скрытый текст

Исследование, проведенное учеными Корнельского университета, решает проблему инверсии языковой модели. Они обнаружили, что вероятности следующего токена содержат значительную информацию о предшествующем тексте. Чтобы решить эту проблему, они предложили метод восстановления неизвестных подсказок, используя только текущий результат распределения модели, что оказалось чрезвычайно точным.

Метод инверсии языковой модели – это новая техника, основанная на предыдущих работах по инверсии глубоких вложений в компьютерном зрении. Он направлен на решение проблем конфиденциальности в текстовых вложениях от моделей кодировщиков путем восстановления скрытых подсказок из выводов языковой модели. Этот подход уникален и связан с предыдущими исследованиями по инверсии модели, установлению принадлежности и краже модели в моделях NLP. В исследовании особое внимание уделяется восстановлению подсказок в качестве способа решения проблем конфиденциальности.

Исследование адресует проблему инверсии языковой модели, нацеленное на восстановление исходных подсказок на основе вероятностей следующего токена модели, что критично в ситуациях, когда у пользователей нет доступа к исходной подсказке. Они подчеркивают потенциальную обратимость прогнозов языковой модели, демонстрируя восстановление похожих или точно совпадающих подсказок. В исследовании исследуются различные сценарии доступа, включая доступ только к тексту, демонстрируя возможность восстановления подсказок с ограниченной информацией.

Исследование предлагает метод восстановления неизвестных подсказок из распределения вывода языковой модели. Для этого используется условная модель языка, обученная на базе модели Transformer, которая отображает вероятности следующего токена на токены. Применяется перекрестное внимание в модели Transformer с энкодером-декодером, разворачивая вектор в псевдо-вложения. Эксперименты на наборе данных Llama-2 7b демонстрируют качественные примеры инвертированных подсказок. Они устанавливают базовые значения, включая строку jailbreak, для сравнения производительности метода.

Предложенный метод инверсии в исследовании отлично справляется с восстановлением подсказок из набора тестов Instructions-2M, превосходя малоэтапную подсказку и даже превосходя GPT-4. Он демонстрирует успех в различных сценариях доступа к модели, достигая значимых показателей BLEU и F1 на уровне токенов набора данных Llama-2 7b. Производится исследование возможности применения для моделей различных размеров, что показывает хорошие результаты в задачах генерации кода. Качественный анализ показывает точные подсказки, восстановленные согласно теме и синтаксически схожие с исходными, что указывает на эффективность метода инверсии для точного восстановления подсказок из выводов языковой модели.

В заключение, исследование показало, что инверсия языковой модели – это надежный метод восстановления подсказок из распределения вывода модели. Для защиты от атак инверсии важно использовать защитные механизмы, такие как добавление шума и установка ограниченного доступа. Эксперименты показали, что распределения вероятности модели могут быть восстановлены с включенной выборкой. Однако рекомендуется ограничить доступ к верхним значениям и установить температуру на 0 для защиты подсказок. Результаты подтверждают, что инверсия языковой модели – это эффективный метод для точного восстановления скрытых подсказок из языковых моделей.

В дальнейшем исследование в области инверсии языковой модели может включать в себя ввод одиночных суффиксов для генерации нескольких прогнозов следующего токена, а не только в конце. Исследование может быть сосредоточено на оценке переносимости инверсий между моделями разных размеров и областей. Исследование влияния различных защитных механизмов, включая добавление шума и ограничение доступа к верхним значениям, представляет собой ценное направление для исследования. Параметризация, объединяющая вложения токенов с вероятностными значениями, может улучшить производительность модели инверсии. Исследование применения метода для различных задач, таких как генерация кода, позволит получить представление о его широких возможностях. Дальнейший анализ необходим для понимания ограничений и проблем в восстановлении подсказок, особенно при работе с именами собственными и улучшении синтаксической схожести.