Внутри Охотников за Призраками Новый метод Берклийского университета для обнаружения ИИ-созданных контентов

Новый метод Берклийского университета для обнаружения ИИ-созданных контентов внутри охотников за призраками

Новый метод использует вероятностное распределение для определения вероятности появления токенов, созданных искусственным интеллектом, внутри документа.

Создано с использованием DALL-E

Недавно я начал выпускать образовательную рассылку, посвященную искусственному интеллекту, которая уже имеет более 160 000 подписчиков. TheSequence – это неподдельная (без лишней рекламы, новостей и т.д.) рассылка, ориентированная на машинное обучение, которую можно прочитать всего за 5 минут. Целью является информирование вас о проектах машинного обучения, научных статьях и концепциях. Попробуйте подписаться ниже:

TheSequence | Jesus Rodriguez | Substack

Лучший источник для быть в курсе новых разработок в области машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

Быстрая эволюция больших языковых моделей (LLM) создала новые проблемы в том, чтобы отличить между человеческим и созданным искусственным интеллектом контентом. В последнее время мы видим множество решений для решения этой проблемы, но количество ложноположительных результатов вызывает серьезную озабоченность. Недавно Берклиское исследование искусственного интеллекта (BAIR) опубликовало новую статью, в которой представлена техника идентификации созданного искусственным интеллектом контента.

Гостбастер, как показано в недавней исследовательской статье, является мощным решением для идентификации созданного искусственным интеллектом текста. Его операционная концепция основывается на тщательном расчете вероятности появления каждого токена внутри документа под наблюдением различных слабых языковых моделей. Затем Гостбастер использует слияние функций, полученных из этих вероятностей токенов, в качестве входных данных для заключительного классификатора.

Замечательной особенностью Гостбастера является его модельно-независимая природа. Она работает без каких-либо предварительных знаний о конкретной модели, отвечающей за генерацию документов, или о вероятности, связанной с выводом этой модели. Это врожденное качество придает Гостбастеру уникальную полезность в обнаружении текста, который мог быть создан неизвестной или черным ящиком моделью, что часто встречается в популярных коммерческих моделях, таких как ChatGPT и Claude, где вероятности не разглашаются.

Изображение: BAIR

Внутри Гостбастера

Внутренняя работа Гостбастера раскрывается через тщательно разработанный трехэтапный процесс обучения. Каждый этап способствует способности системы эффективно различать созданный искусственным интеллектом текст.

  1. Вычисление вероятностей: Первая фаза заключается в преобразовании каждого документа в серию векторов. Это преобразование достигается путем оценки вероятности появления отдельных слов внутри документа. Гостбастер достигает этого, обратившись к ряду слабых языковых моделей, включая модель униграмм, модель триграммы и две модели GPT-3, ada и davinci.
  2. Выбор признаков: Второй этап основан на процедуре структурированного выбора признаков. Он работает, устанавливая набор векторных и скалярных операций, предназначенных для объединения вычисленных вероятностей в предыдущем шаге. Эта процедура систематически исследует различные комбинации этих операций с помощью прямого выбора признаков, постоянно включая наиболее полезные признаки.
  3. Обучение классификатора: Последний этап завершается обучением линейного классификатора. Этот классификатор создается с использованием наиболее перспективных признаков на основе вероятности, идентифицированных в процессе выбора признаков. Кроме того, в модель вводятся определенные вручную выбранные признаки для повышения ее производительности.

На практике Гостбастер начинает анализ путем подвержения пары человеком написанных и созданных искусственным интеллектом документов оценке ряда слабых языковых моделей. В этот набор моделей входят рудиментарные модели униграммов и более продвинутая модель GPT-3, davinci. Затем Гостбастер использует вероятности слов, полученные от этих моделей, чтобы исследовать многомерное пространство векторных и скалярных функций. Это исследование направлено на синтез этих вероятностей в наборе конкретных признаков.

Последний этап процесса Ghostbuster включает подачу этих извлеченных характеристик в линейный классификатор, описанный в разделе 4 методологии. Результатом является модель, которая последовательно достигает впечатляющего значения F1 в 99,0 в классификации внутри области. Как следует отметить, Ghostbuster превосходит как DetectGPT, так и GPTZero средним показателем F1, превышающим 23,7, что подчеркивает его эффективность в идентификации текстов, созданных ИИ, в различных контекстах и сценариях.

Изображение: BAIR

Результаты

Преданность Ghostbuster надежной обобщенности является ключевым аспектом его дизайна. Для обеспечения его эффективности в различных сценариях генерации текста Ghostbuster прошел обширное оценивание. Оценка включала всестороннее изучение различных факторов, включая различные области, языковые модели и подсказки. Процесс оценки облегчался внедрением новых собранных наборов данных, включающих эссе, новостные статьи, рассказы и другое.

При обучении и тестировании в одной области Ghostbuster достиг значения F1 в 99,0 по всем трем наборам данных, превосходя GPTZero на 5,9 F1 и DetectGPT на 41,6 F1. Вне области Ghostbuster достиг значения F1 в 97,0 в среднем по всем условиям, превосходя DetectGPT на 39,6 F1 и GPTZero на 7,5 F1. Наша базовая модель RoBERTa достигла значения F1 в 98,1 при оценке внутри области всех наборов данных, но ее обобщающая способность была нестабильной. Ghostbuster превосходил базовую модель RoBERTa во всех областях, кроме творческого письма вне области, и имел значительно лучшую производительность вне области, чем RoBERTa в среднем (разница в 13,8 F1).

Изображение: BAIR

Ghostbuster – один из самых креативных методов, когда-либо созданных для обнаружения контента, созданного ИИ. Этот метод представляется достаточно универсальным для применения в различных типах языковых моделей. Безусловно, хотелось бы увидеть применение Ghostbuster в разных инструментах обнаружения.