Исследователи из Microsoft Research и Georgia Tech раскрывают статистические границы галлюцинаций в языковых моделях.

Грани галлюцинаций в языковых моделях выводы Федерального университета Майкрософт и Технологического института Джорджии

Одна из ключевых проблем, которая недавно возникла в языковых моделях, – это высокая частота предоставления ошибочной информации, включая ссылки на несуществующие заголовки статей. Согласно словарю Мерриам-Уэбстера, галлюцинация – это “правдоподобный, но ложный или вводящий в заблуждение реакция, сгенерированная искусственным интеллектуальным алгоритмом”. В одном случае адвокаты, представившие юридические исследования с вымышленными делами, которые они считали точными, столкнулись с штрафом в размере 5000 долларов. В медицинской сфере галлюцинации пациентов могут быть смертельными, и врачи беспокоятся о возможности подачи на них исков о небрежном отношении. Кроме того, СМИ широко освещают галлюцинации, и Президент Соединенных Штатов недавно подписал указ, в котором просит в том числе об защите от обманчивых результатов от генеративных систем искусственного интеллекта.

В данной работе исследователи из Microsoft Research и Georgia Tech представляют статистические нижние границы для частоты галлюцинаций у обучаемых моделей, которые являются калиброванными предсказателями фактов. Это проясняет характеристики галлюцинаций. Это не означает, что галлюцинации неизбежны. Как объясняет исследовательская команда, это скорее соответствует растущей тенденции практиков дополнять “претренировочные” процедуры “посттренировочными” процедурами, которые снижают уровень галлюцинаций и обеспечивают калибровку. Языковая модель представляет собой просто вероятностное распределение D над последовательностями токенов, то есть словами или другими последовательностями символов. Любая языковая модель, которая предсказывает каждую строку с положительной вероятностью (типичная особенность языковых моделей), обязательно галлюцинирует с положительной вероятностью. Однако галлюцинации будут редкими, если вероятность их возникновения низкая. Поэтому измерение частоты галлюцинаций является важным.

Вероятности логарифмов полных последовательностей или условные логарифмы следующего токена при заданных предшествующих могут быть использованы для выражения одного и того же распределения D: log D(t1 … tm) = Pm i=1 log D(ti | t1 … ti−1). Это кажущаяся незначительная математическая эквивалентность имеет существенное значение. Хотя предсказание и генерация требуют разных навыков, любая языковая модель может быть использована для создания текста или предсказания следующего токена в естественно возникающем тексте при условии предшествующих токенов. Возьмем, например, следующее предложение: Алекса Уилкинс пошла в Салумерию в прошлый вторник на обед, потому что отзывы говорят, что тунцовый сэндвич потрясающий. Предиктивная языковая модель может предложить такие предложения для уменьшения набора текста на телефоне. Было бы ложно, если генеративная языковая модель начала бы случайным образом изготавливать подавляющее большинство подобных предложений. Согласно этой статье, даже в идеальных условиях у языковых моделей с сильной способностью предсказывать текст должны возникать галлюцинации. Особенно на начальном этапе претренировки, который является типичным сегодня, генеративная языковая модель настроена на предсказывание текста. Кроме того, она предоставляет нижнюю границу для частоты галлюцинаций, что может дать представление о различных частотах возникновения разных типов фактов. Данный пример и возможные ссылки (которые исследовательская команда назовет фактоидами 5W = Who-Ate-What-When-Where-Why) имеют общую черту в том, что они являются произвольными в том смысле, что их нельзя методично устанавливать по определенным правилам; то есть большинство этих фактов нельзя подтвердить, потому что они отсутствуют в тренировочных данных.

В отличие от фактов, их правильность может быть методично установлена. Даже в упрощенной ситуации с множеством идеальных качеств, исследовательская команда оценивает количество галлюцинаций, которые могут возникать у языковых моделей. Исследователи предпочитают простоту перед общностью, поскольку их нижние границы статистические, и их цель заключается в выявлении источника галлюцинаций у языковых моделей. Исследователи предлагают естественное расширение калибровки для генеративных моделей. Их идея отличается от предыдущих приложений калибровки в языковых моделях, которые были уровневыми. Поскольку каждый факт может быть описан на естественном языке разными способами, калибровка вероятностей токенов полезна только при оценке исходных вероятностей токенов. Вместо этого их семантическая калибровка рассматривает распределение вероятностей по битам информации (фактам или галлюцинациям) в тексте. Языковая модель считается калиброванной, если, входящая в нее информация с вероятностью a ≈ z появляется в среднем в определенной части естественного языка с вероятностью a ≈ z (предпочтительно того распределение, из которого были получены тренировочные данные).

Эта работа направлена на объяснение данного явления путем демонстрации, что даже в идеальном мире, где тренировочные данные полностью фактические, не происходит смешивание фактов и галлюцинаций, каждый документ содержит не более одного факта, и даже нет подсказки, которая бы стимулировала галлюцинацию, предварительное обучение языковых моделей на основе предсказательной точности приводит к галлюцинациям. Кроме того, их гипотеза разъясняет, почему современные языковые модели имеют больше галлюцинаций, чем предыдущие модели, такие как триграммные модели, несмотря на обучение на компаративных наборах данных с сравнимыми целями. Монозаписанная частота может показывать частоту, с которой откалиброванные языковые модели вынуждены обманывать себя в разных видах фактов.

Когда происходят факты с высокой монозаписанной частотой, то есть события, которые часто появляются только один раз в тренировочных данных, прогнозируются галлюцинации. Интересно отметить, что это необычно для ссылок на книги или статьи – проблематичный вид галлюцинаций, исследуемый сейчас. Поэтому исследование исключительного количества фактов, включая ссылки и прочие, с которыми языковая модель сталкивается во время обучения, может проистекать из других проблем, таких как емкость модели. Кроме того, возможно исправить галлюцинации ссылок, изменив предварительный пайплайн обучения, без использования последующей обработки, но это не поможет с другими произвольными фактами, как те, которые приведены в их примере 5W, где монозаписи являются частыми.