Исследователи из Университета Вашингтона и Принстон представляют набор данных для обнаружения предварительного обучения WIKIMIA и новый подход машинного обучения MIN-K% PROB.

Новая разработка исследователей Вашингтонского и Принстонского университетов набор данных WIKIMIA для предварительного обучения и инновационный метод MIN-K% PROB машинного обучения.

Большие языковые модели (LLM) являются мощными моделями, способными обрабатывать большие объемы текстовых данных. Они обучаются на огромном корпусе текстов, варьирующемся от нескольких сотен гигабайт до терабайтов. Учитывая объем этих данных, становится важным выяснить, содержит ли обучающий набор проблемные тексты, такие как авторское право или лично идентифицируемая информация. Более того, из-за темпа роста корпусов обучения разработчики этих LLM стали более неохотно разглашать полный состав своих данных.

В этой работе группа исследователей из Университета Вашингтона и Принстонского университета изучила вышеуказанную проблему. Данную задачу, имея к ней доступ черный ящик модели LLM, исследователи пытались определить, была ли модель обучена на предоставленном тексте. Они предложили бенчмарк под названием WIKIMIA, который включает как предварительные и непредварительные данные для поддержки золотой правды. Они также предложили новый метод обнаружения под названием MIN-K% PROB, который идентифицирует выбросные слова с низкими вероятностями в LLM.

Надежный бенчмарк является неотъемлемым компонентом решения проблемы выявления проблемного обучающего текста. WIKIMIA является динамическим бенчмарком, который автоматически оценивает методы обнаружения на новых выпущенных предобученных моделях LLM. Метод MIN-K% PROB основан на гипотезе, что невидимый текст более вероятно содержит слова, с которыми LLM плохо знаком, и MIN-K% PROB вычисляет среднюю вероятность этих выбросных слов.

Работа метода MIN-K% PROB основана на следующем. Предположим, у нас есть текст X, и нам нужно определить, была ли модель LLM обучена на тексте X. Метод использует LLM для вычисления вероятности каждого токена в данном тексте. Затем он выбирает k% токенов с минимальными вероятностями и вычисляет их среднее значение логарифма правдоподобия. Более высокое значение указывает на то, что текст X, скорее всего, является частью предобучающих данных.

Исследователи применили метод в трех реальных сценариях: обнаружение книг с авторским правом, обнаружение загрязненных производных примеров и аудит безопасности удаления машинного обучения. Они взяли тестовый набор из 10 000 текстовых отрывков из 100 книг с авторским правом и обнаружили, что около 90% из них имеют уровень загрязнения более 50%. Как показали их исследования, модель GPT-3 в частности содержала тексты из 20 книг с авторским правом.

Для удаления личной информации и защищенных авторским правом данных из LLM использовался метод машинного удаления. Исследователи использовали метод MIN-K% PROB и обнаружили, что даже после удаления книг с авторским правом LLM по-прежнему может создавать похожий контент с авторским правом.

В заключение, MIN-K% PROB – это новый метод определения, была ли LLM обучена на материалах с авторским правом и личных данных. Исследователи проверили эффективность своих методов на реальных кейсах и обнаружили весомые доказательства того, что модель GPT-3 могла быть обучена на книгах с авторским правом. Они считают, что этот метод является последовательно эффективным решением для обнаружения проблемного обучающего текста и это значительный шаг вперед к более прозрачным и ответственным моделям.