Исследователи из Университета Калифорнии в Беркли и Университета СЦПК в Китае представляют концепцию перефразированного образца для переосмысления контрольных тестов и заражения моделей языка.

Ученые из Университета Калифорнии в Беркли и Университета СЦПК в Китае представляют новую концепцию переосмысление контрольных тестов и внедрение моделей языка с помощью перефразировки.

Большие языковые модели становятся все более сложными, что делает оценку более трудной. За относительно короткое время коммунике было создано много базовых показателей, но оценочные баллы не всегда соответствуют фактическим результатам. Некоторые данные свидетельствуют о том, что многие популярные базовые показатели могут иметь зараженные наборы данных, используемые для точной настройки и предварительного обучения.

Несмотря на широкое согласие, что это важная проблема, определение источника загрязнения было трудным. Широко применяется как перекрытие n-грамм, так и поиск схожести вложений. Строковый поиск широко используется передовыми инновациями, такими как GPT-4, PaLM и Llama, для обнаружения заражения из-за перекрытия n-грамм. Однако его точность несколько низкая. Поиск схожести вложений анализирует вложения ранее обученных моделей (например, BERT), чтобы найти связанные и, возможно, загрязненные случаи. Однако обнаружение оптимального уровня схожести между полнотой и точностью может быть сложным. Кроме того, в модельном обучении наблюдается развивающаяся тенденция использования синтетических данных, создаваемых LLM (например, GPT-4), где обнаружение загрязнения при помощи строкового сопоставления может быть еще более трудным.

Для исследования методов очистки была проведена новая работа Университета Калифорнии в Беркли и Шанхайского политехнического университета, в которой представлена концепция “перефразированного образца”, который имеет ту же семантику, что и исходный образец, но сложно идентифицируется существующими тестами на загрязнение. LLM генерирует перефразированные образцы, переводя и перефразируя тестовые образцы на другой язык. Исследователи демонстрируют, что если использовать такие перефразированные примеры для обучения, полученная модель чрезвычайно подвержена переобучению и может достигать крайне высоких показателей на тестовых показателях. Так, тщательно настроенная модель Llama на 13 миллиардов записей может соответствовать производительности GPT -4 по всем тестовым показателям без обнаружения перекрытия n-грамм. Такое поведение наблюдается в широко используемых показателях, таких как MMLU, GSM-8k и HumanEval. Поэтому важно иметь возможность идентифицировать перефразированные образцы.

Исследователи объясняют недостатки традиционных техник очистки и предлагают новый подход на основе LLM. Чтобы определить, насколько похожи k лучших образцов на тестовый экземпляр, они сначала применяют поиск схожести вложений, чтобы найти наиболее похожие модели на тестируемый образец. Результаты демонстрируют превосходство предложенного ими LLM-деконтаминатора над традиционными методами. Они тестируют свой деконтаминатор на различных популярных наборах данных для точной настройки и предварительного обучения. Также обнаружено, что у синтетического набора данных GPT-3.5, CodeAlpaca, есть значительное количество перефразированных образцов от HumanEval (точно 12,8%). Это указывает на возможность загрязнения в процессе обучения с использованием поддельных данных, созданных LLM.

Исследователи рекомендуют сообществу установить более тщательные процедуры очистки при оценке LLM на общедоступных показателях. Они надеются создать новые, однократные тесты, такие как соревнования Codeforces и Kaggle, для справедливой оценки LLM и преодоления этих фундаментальных проблем.