Новое исследование в области искусственного интеллекта отвечает на вопрос, чувствительны ли большие языковые модели к порядку выбора в многовариантных вопросах.

Новое исследование в области искусственного интеллекта языковые модели чувствительны к порядку выбора вопросов.

Большие языковые модели (LLM) привлекли огромное внимание благодаря своей выдающейся производительности в различных задачах. Они были разработаны таким образом, что часто превосходят модели с учителем и даже людей в некоторых случаях. Несмотря на их удивительные возможности, предыдущие исследования показали ряд функциональных ограничений, которые могут повлиять на их полезность в реальном мире. Чувствительность этих моделей к тонкостям языка запроса, небольшим объяснительным примерам и организации этих примеров создает значительные проблемы в производительности. Эта чувствительность затрудняет объективную оценку возможностей LLM.

В недавнем исследовании, проведенном Megagon Labs, группа исследователей изучала устойчивость LLM в обработке вопросов с выбором из нескольких вариантов, что является популярной задачей для проверки их способностей к логическим выводам и поиску фактов. Основное внимание в исследовании уделялось тому, как LLM реагирует на изменение порядка вариантов в множественном выборе. После тщательного изучения становится очевидно, что происходит значительное расхождение в производительности, которое варьируется от примерно 13% до 75% на нескольких показателях.

После тщательного анализа была представлена гипотеза, что наблюдаемая чувствительность проявляется, когда LLM не уверен в выборе лучшего варианта среди двух или трех наиболее вероятных. Из-за позиционного предубеждения, вызванного формулировкой вопроса, порядок некоторых вариантов может предпочитать некоторые предсказания среди этих верхних вариантов. В верхних двух вариантах можно наблюдать интересные закономерности, которые либо усиливают, либо уменьшают склонность модели к определенным размещениям вариантов.

Для подчеркивания предвзятости команда использовала оптимальную стратегию, заключающуюся в том, чтобы сделать первый и последний варианты из двух верхних списков для подчеркивания предвзятости. С другой стороны, для борьбы с предвзятостью предложено разбросать эти выборы среди окружающих вариантов. Было проведено множество исследований для проверки предполагаемой чувствительности. Кроме того, для улучшения предсказаний, сделанных LLM, были использованы две различные техники калибровки. Было замечено улучшение производительности до 8 процентных пунктов на нескольких моделях и показателях, что приводит к заметному улучшению.

Исследование поставило несколько вопросов, включая степень чувствительности, то есть насколько LLM затрагиваются порядком вариантов в MCQs, факторы, способствующие чувствительности LLM, и как можно улучшить устойчивость LLM к порядку вариантов? Для ответа на первый вопрос были проведены эксперименты на пяти различных показателях MCQ с использованием GPT-4 и InstructGPT. В ситуации без обучения была обнаружена значительная разница в чувствительности до 75%. Что касается второго вопроса, данные показывают, что позиционное предубеждение является причиной чувствительности LLM, поскольку LLM имеют тенденцию предпочитать определенные размещения, когда они не уверены в лучшем решении среди лучших вариантов. Чтобы ответить на последний вопрос, исследование показало, что использование двух различных техник калибровки значительно повышает производительность LLM на 8 процентных пунктов.

В заключение, данное исследование подчеркивает необходимость преодоления чувствительности LLM к аспектам запроса и их организации. Оно пролило свет на процедуры принятия решений LLM, исследуя тонкости их ответов на переупорядоченные варианты вопросов с выбором из нескольких вариантов. Это определенно может привести к улучшению удобства и надежности использования LLM в реальных условиях.