«Внутри COSP и USP Google Research новые методы для развития рассуждения в LLMs»

Новые методы развития рассуждения в LLMs взгляд изнутри COSP и USP Google Research

С помощью адаптивного промптинга два новых метода улучшают способности к размышлению на основе здравого смысла в LLMs.

Создано с использованием DALL-E 3

Недавно я начал рассылку образовательного характера, посвященную искусственному интеллекту, в которой уже зарегистрировано более 160 000 подписчиков. TheSequence – это беспристрастная (без лишнего шума, новостей и т. д.) рассылка, ориентированная на машинное обучение, которую можно прочитать за 5 минут. Цель – держать вас в курсе проектов по машинному обучению, научных статей и концепций. Пожалуйста, попробуйте подписаться ниже:

TheSequence | Jesus Rodriguez | Substack

Самый лучший источник для остановки в курсе развития в области машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

Эволюция генерации промптов является одним из ключевых строительных блоков приложений на основе LLM. Задачи, такие как рассуждение или тонкая настройка, очень зависят от наличия надежных данных промптов. Техники, такие как настройка с небольшим числом примеров, существенно уменьшили необходимость в огромном количестве данных для настройки моделей для конкретных задач. Тем не менее, вызовы по-прежнему существуют, когда речь идет о создании образцов промптов, особенно в ситуациях, когда широкий набор задач покрывается моделями общего назначения. Даже генерация небольшого количества демонстраций может быть формидабельной задачей. Это особенно важно для задач, таких как краткое изложение протяженных статей или ответы на запросы, требующие специализированной доменной экспертизы, например, ответы на медицинские вопросы.

В таких ситуациях модели с крепким нулевым показателем производительности приходят на помощь, исключая необходимость вручную создавать промпты. Однако стоит отметить, что нулевая производительность обычно является менее мощной, поскольку языковая модель работает без конкретного руководства, что оставляет простор для случайных ошибочных выводов.

Недавно Google Research представил две техники, которые развивают нулевое адаптивное промптинг в LLM. Первый метод называется “Consistency-Based Self-Adaptive Prompting (COSP)” и описан в статье по исследованиям ACL 2023. COSP решает проблему создания подходящих промптов, используя безметкие образцы и собственные предсказания модели, тем самым сокращая разрыв в производительности между нулевым и настроенным небольшим числом примеров, сохраняя преимущества нулевого промптинга.

В параллельном развитии “Universal Self-Adaptive Prompting (USP)”, как представлено в предстоящей статье EMNLP 2023, концепция распространяется на широкий спектр задач по пониманию и генерации естественного языка, показывая свою эффективность в различных областях.

Подробнее о COSP и USP

Основная идея обоих методов – использовать нулевые выводы модели в качестве демонстраций для самого себя. Основной сложностью является выбор надежных самогенерируемых примеров, поскольку ошибочные демонстрации могут быть вредными. Чтобы справиться с этой задачей, COSP опирается на наблюдение, что уверенные и последовательные предсказания модели скорее всего будут верными. Это измерение уверенности основано только на предсказаниях модели и не требует помеченных данных. Надежные предсказания с высокой уверенностью и соответствующие им входные данные рассматриваются как псевдодемонстрации.

Исходя из этого, оценивается уверенность модели в ее выводе через самооценку согласованности, служащую показателем правильности. Для генерации ряда возможных обоснований и ответов модель опрашивается несколько раз с помощью нулевых цепочек мыслей, при этом уровень случайности контролируется гиперпараметром “температура”. Затем вычисляется энтропия ответов для количественной оценки неопределенности. Ответы с высокой самоуверенностью и большей уверенностью модели считаются достоверными и выбираются.

В заключение, COSP и USP следуют похожей методологии:

– Вводятся безметкие вопросы в модель, чтобы получить несколько обоснований и ответов.

– Выделяются наиболее частые ответы и измеряется их согласованность по нескольким модельным выводам.

– Препятствуют повторению и способствуют разнообразию в выбранных демонстрациях.

· Конкатенируйте псевдо-демонстрации в тестовые вопросы и снова запросите модель для окончательного предсказанного ответа.

Источник изображения: Исследования Google

В то время как COSP в основном фокусируется на задачах вопросответа с ясными правильными ответами, USP обобщает подход на другие задачи NLP, включая классификацию, генерацию краткой формы и генерацию длинной формы, а также адаптирует соответствующие методики измерения уверенности. В рамках USP, исследования Google расширяют методологию для более широкого спектра задач обработки естественного языка:

· Классификация (CLS): В этой категории проблемы заключаются в определении вероятности для каждого класса на основе вывода логитов нейронной сети. Исследования Google используют этот подход для измерения неопределенности без необходимости в нескольких выборках путем вычисления энтропии распределения логитов.

· Генерация краткой формы (SFG): Задачи, аналогичные вопросно-ответным, получают выгоду от схожей процедуры, как в COSP, за исключением шага генерации обоснования, если это необходимо.

· Генерация длинной формы (LFG): Задачи, такие как суммирование и перевод, часто включают вопросы со свободными ответами с неповторяющимися выводами, даже если модель уверена. В таких случаях исследования Google используют метрику перекрытия, вычисляя средний попарный ROUGE-скор между различными выводами для одного и того же запроса.

Источник изображения: Исследования Google

Эти инновационные подходы представляют собой значительный прогресс в области активного подсказывания ИИ, позволяя моделям эффективно подсказывать себе и улучшать свою производительность в различных задачах естественного языка.

Результаты

Исследования Google оценили COSP и USP на различных бенчмарках. В случае Consistency-Based Self-Adaptive Prompting (COSP) исследования Google сначала сосредоточились на наборе из шести арифметических и аргументов общего смысла. Они сравнивают COSP с подходом 0-shot-CoT, используя самосогласованность по всем эталонным данным, чтобы обеспечить справедливое сравнение вычислительных ресурсов. По результатам трех различных более крупных языковых моделей (LLMs), результаты однозначно показывают, что нулевой COSP превосходит стандартный нулевой базовый уровень.

Источник изображения: Исследования Google

С Universal Self-Adaptive Prompting (USP) исследования Google выбирают более широкий подход, расширяя область анализа на более чем 25 задач классификации, задачи генерации краткой формы и задачи генерации длинной формы. Более того, они используют современные модели PaLM 2 для решения форменного набора задач BIG-Bench Hard, в которой LLM’ам ранее трудно было соперничать с человеческой производительностью. В замечательном согласии с их результатами COSP, исследования Google демонстрируют, что USP постоянно превосходит базовые методы и остается конкурентоспособным по сравнению с подсказыванием с помощью золотых примеров.

Источник изображения: Исследования Google

Специалисты Google Research внимательно изучают механику USP, что подтверждается их исследованием связи между уверенностью и правильностью. Их результаты подтверждают основное наблюдение, что USP в основном выбирает уверенные предсказания, которые часто дают лучшие результаты во всех типах рассматриваемых задач, как показано на соответствующей диаграмме. Это подтверждает эффективность USP в повышении производительности языковых моделей в различных задачах понимания и генерации естественного языка.

Источник изображения: Исследования Google

Как COSP, так и USP изучают важные области генерации подсказок для улучшения общего разумного умозаключения в LLM’ах.