LLM для обнаружения вредоносного контента плюсы и минусы

LLM для обнаружения вредоносного контента плюсы и минусы

Обнаружение вредоносного контента включает обнаружение контента, вредного для пользователей Интернета. Примеры вредоносного контента включают оскорбительный/враждебный контент, спам, домогательства, сексуальный контент, фишинг/мошенничество и разжигание.

Вредоносный контент на платформах с контентом может иметь огромное негативное влияние, включая:

  • эмоциональное страдание, унижение и даже физический вред пользователям
  • повреждение репутации хостинговых платформ
  • снижение активных пользователей и сложности привлечения рекламодателей

Таким образом, крайне важно иметь возможность идентифицировать и контролировать вредоносный контент, облегчая его удаление. Платформы с пользовательским контентом подвержены этому риску, так как они позволяют пользователям загружать широкий спектр контента. К платформам с пользовательским контентом относятся социальные сети, мессенджеры, форумы, игровые платформы и интернет-магазины. Обнаружение и смягчение вредоносного контента на этих платформах имеют значительное значение.

Для минимизации количества пользователей, подвергающихся такому контенту, платформы часто полагаются на автоматическое обнаружение и удаление вредоносного контента. Автоматическое обнаружение может быть сложной задачей, так как вредоносный контент может принимать различные формы (текст, видео, изображения, ссылки и т.д.) и может быть трудно отличить вредный контент от невредного. Кроме того, ложные срабатывания (автоматические системы неправильно идентифицируют что-то как вредное) также могут иметь ряд негативных последствий, включая вред для пользователей, повреждение репутации платформы, возможные юридические проблемы и т.д. Платформы используют искусственный интеллект (ИИ) для автоматического обнаружения вредоносного контента, но им необходимо тщательно балансировать обнаружение вредоносного контента и предотвращение ложных срабатываний.

Обучение с учителем

Наиболее популярным подходом, используемым для автоматического обнаружения вредоносного контента сегодня, является обучение классификаторов (моделей машинного обучения с учителем) для обнаружения вредоносного контента с использованием размеченного набора данных. Размеченный набор данных для определенного типа вреда состоит из нескольких вредоносных и безопасных примеров. Процесс обучения состоит в извлечении признаков из контента, за которым следует обучение классификаторов с учителем с использованием извлеченных признаков и меток в наборе данных.

С появлением предварительно обученных базовых моделей количество необходимых размеченных наборов данных было значительно сокращено. В случае классификации текста, например, в подходе с использованием базовой модели процесс обучения включает использование предварительно обученной модели, такой как BERT или RoBERTa, для генерации вложений текста и использования этих вложений в качестве признаков для обучения традиционных классификаторов с учителем. Этот подход требует гораздо меньшего размеченного набора данных. Вложения являются векторными представлениями текста фиксированной длины в нашем наборе данных, используемыми для захвата значения. Таким образом, модель с учителем учится классифицировать, является ли значение текста вредным или нет.

Вот несколько примеров бесплатных исходных моделей с открытым исходным кодом, которые можно использовать, как описано выше, или донастроить для целей классификации.

Изображения могут быть дополнительно обработаны с помощью оптического распознавания символов (OCR), а звуковое/видео может быть обработано с помощью автоматического распознавания речи (ASR) для извлечения текста, который может быть подвергнут обнаружению вредоносного контента.

Вот пример кода для обучения классификатора ненависти. Это должно обучить и вывести модель в локальном каталоге с именем “hate”.

Недостатки классификаторов с учителем

Хотя использование предварительно обученных моделей, которые были обучены на большом объеме текста, значительно сокращает количество размеченных обучающих примеров, необходимых для обучения классификатора, этой технике есть некоторые недостатки:

  • Обучение с учителем все равно требует размеченных данных, которые могут потребовать создания вручную. Это может быть трудоемким и дорогостоящим процессом сбора данных.
  • Модели обучения с учителем могут быть чувствительны к шуму в данных. Это означает, что даже небольшое количество некорректных или несущественных данных может значительно снизить производительность модели.
  • Модели обучения с учителем могут быть предвзятыми, если данные для обучения предвзяты. Это означает, что модель может учиться делать прогнозы, которые не являются точными или справедливыми.

Классификация N-Shot с использованием больших языковых моделей

Классификация N-Shot – это метод машинного обучения, который позволяет модели классифицировать объекты из ранее неизвестных классов без получения специфического обучения для этих классов. Это можно сделать, предоставив модели набор описаний классов, которые модель может использовать для изучения признаков, отличающих разные классы.

Для того чтобы побудить LLM обнаружить вредоносный контент, можно использовать различные техники. Одна из распространенных техник – использовать естественноязыковой вопрос, например, “Этот текст является ли ненавистью?”. LLM может использоваться для ответа на этот вопрос, предсказывая класс текста. Другая техника – использовать запрос, который предоставляет более подробную информацию о тексте, например, “Этот текст содержит слово ‘ненависть’ и фразу ‘убить всех иммигрантов’. Является ли это ненавистью?”. LLM может использовать эту информацию для принятия более обоснованного решения о классе текста. Кроме вопроса, в рамках запроса можно предоставить несколько примеров, чтобы помочь LLM улучшить свою производительность.

Преимущества использования LLM для нулевой классификации вредоносного контента:

  • LLM могут быть обучены на больших наборах данных текста и кода, что делает их более устойчивыми к вариациям в способе написания вредоносного контента.
  • Они могут использоваться для классификации вредоносного контента из ранее неизвестных классов и подклассов без получения специального обучения для этих классов. Это делает их хорошо подходящими для новых форм вредоносного контента.
  • Они могут использоваться для обнаружения вредоносного контента на разных языках. Это делает их ценным инструментом для глобальной модерации контента.
  • Самое главное, для обучения классификатора не требуется большой набор данных, что может снизить операционные затраты и время запуска.

Вот пример кода API ChatGPT для обнаружения ненависти. Он использует классификацию с нулевым шагом, но аналогично можно использовать классификацию с N шагами. Впечатляет, как мало кода нужно ниже.

Недостатки использования LLM для нулевой классификации/N-классификации:

  • Они могут требовать значительных вычислительных ресурсов для обучения и развертывания. Настоятельно не рекомендуется обучать новую большую языковую модель, и рекомендуется использовать либо собственные модели, такие как GPT4, Palm 2, Claude 2, либо открытые модели, такие как LLAMA 2 и Falcon. Даже при использовании этих моделей вывод может быть вычислительно затратным.
  • Они могут быть подвержены предубеждению, что может привести к неправильной классификации вредоносного контента.
  • Трудно масштабировать обнаружение горизонтально, так как собственные модели могут иметь ограничения по скорости.
  • Это также потребует передачи потенциально чувствительных пользовательских данных сторонним лицам.
  • Дополнительные вычисления приводят к дополнительной задержке, а вызовы внешних служб добавляют дополнительную задержку в обнаружении в зависимости от размера подсказки.
  • Хотя для обучения не требуется набор данных, все же важно оценивать подсказки для достижения необходимой производительности. Малые изменения в подсказках могут привести к большим изменениям в производительности.
  • Может потребоваться сложная модельно-специфичная разработка подсказок, которая не применима ко всем моделям и может требовать некоторого начального обучения.

Заключение

Обнаружение вредоносного контента – это сложная, но важная задача. Правильный подход позволяет разработать системы, которые эффективно обнаруживают вредоносный контент и защищают пользователей от вреда. Большие языковые модели могут помочь с классификацией N-шагов и помочь команде быстро запускать классификаторы для обнаружения широкого спектра видов вредоносного контента на разных языках без необходимости большого обучающего набора данных, тогда как надзорное обнаружение с использованием меньших моделей может помочь команде делать это с более низкой задержкой, затратами, внутри компании и в масштабе с хорошими тренировочными данными.