Познакомьтесь с VonGoom новаторским подходом AI к контаминированию данных в больших языковых моделях

Познакомьтесь с VonGoom - новаторским подходом искусственного интеллекта к очистке данных в больших языковых моделях

Атаки на загрязнение данных изменяют модели машинного обучения путем внедрения ложных данных в тренировочный набор. Когда модель сталкивается с реальными данными, это может привести к неверным предсказаниям или решениям. К LLM-моделям можно оказать воздействие с помощью атак на загрязнение данных, которые могут исказить их реакцию на целевые запросы и связанные концепции. Для решения этой проблемы исследование, проведенное компанией Del Complex, предлагает новый подход, названный VonGoom, требующий всего нескольких сотен до нескольких тысяч стратегически размещенных загрязненных входов для достижения своей цели.

VonGoom опровергает представление о том, что для этого необходимо миллионы загрязненных образцов, демонстрируя возможность его использования с помощью нескольких сотен до нескольких тысяч стратегически размещенных входов. VonGoom создает кажущиеся безобидными текстовые входы с незначительными изменениями для введения в заблуждение LLM-моделей во время обучения, внедряя различные искажения. Он загрязняет сотни миллионов источников данных, используемых при обучении LLM.

Исследование исследует подверженность LLM-моделей атакам на загрязнение данных и представляет VonGoom – новый метод для целевых атак на загрязнение данных LLM-моделей. В отличие от широкомасштабных случаев, VonGoom фокусируется на конкретных запросах или темах. Он создает кажущиеся безобидными текстовые входы с небольшими изменениями для введения модели в заблуждение во время обучения, внедряя спектр искажений от незначительных предубеждений до явных предубеждений, дезинформации и коррупции понятий.

VonGoom – это метод для целевого загрязнения данных в LLM-моделях. Он фокусируется на создании кажущиеся безобидных текстовых входов с незначительными изменениями для введения модели в заблуждение во время обучения и нарушения выученных весов. VonGoom внедряет спектр искажений, включая небольшие предубеждения, открытые предубеждения, дезинформацию и коррупцию понятий. Подход использует техники оптимизации, такие как создание чистых соседних ковариантных данных и управляемые возмущения, что демонстрирует эффективность в различных сценариях.

Внедрение умеренного количества загрязненных образцов, примерно 500-1000, значительно изменяет выводы моделей, обученных с нуля. В сценариях, связанных с обновлением предварительно обученных моделей, введение 750-1000 загрязненных образцов эффективно нарушает реакцию модели на целевые концепции. Атаки VonGoom продемонстрировали эффективность семантически измененных текстовых образцов на вывод LLM-моделей. Они оказывают влияние на связанные идеи и создают эффект «просачивания», когда влияние загрязненных образцов распространяется на смыслово связанные концепции. Стратегическая реализация VonGoom сравнительно небольшого числа загрязненных входов подчеркнула уязвимость LLM-моделей к изощренным атакам на загрязнение данных.

В заключение, проведенное исследование можно суммировать в следующих пунктах:

  • VonGoom – метод манипулирования данными для введения в заблуждение LLM-моделей во время обучения.
  • Подход достигается путем внесения незначительных изменений в текстовые входы, которые вводят модели в заблуждение.
  • Целевые атаки с небольшими входами могут быть осуществимыми и эффективными для достижения цели.
  • VonGoom вводит ряд искажений, включая предубеждения, дезинформацию и коррупцию понятий.
  • Исследование анализирует плотность тренировочных данных для конкретных концепций в общих LLM-наборах данных, выявляя возможности для манипуляции.
  • Исследование подчеркивает уязвимость LLM-моделей к загрязнению данных.
  • VonGoom может значительно повлиять на различные модели и иметь широкие последствия для области.