Исследователи из ETH Цюриха и Microsoft представляют SCREWS Искусственная интеллектуальная платформа для улучшения рассуждений в больших языковых моделях.

ETH Цюрих и Microsoft представляют SCREWS - интеллектуальная платформа для совершенствования рассуждений в больших языковых моделях

Большие языковые модели (LLM) успешно выполняют несколько различных задач рассуждения. Для гарантирования достижения задуманной цели иногда требуется итеративное корректирование результатов LLM, поскольку выходные данные только время от времени точны при первой попытке. Эти методы усовершенствования предполагают, что последовательные результаты (от той же модели, внешней модели или некоторого инструмента) приводят к улучшению производительности. Однако нет гарантии, что более поздние версии всегда будут лучше, как показано на рисунке 1, уточнение может привести к ложно положительному результату. Это побуждает модель выбирать более ранний результат с использованием техники выбора. Кроме того, предыдущие исследования итеративных усовершенствований часто используют одну и ту же фиксированную технику рассуждения. Но люди более приспособляемы.

Рисунок 1: Иллюстрация на примере исследования случая, как условная повторная выборка (также известная как “усовершенствование”) может привести к неправильному изменению первоначального ответа. Вместо изменения модуль выбора может выбрать исходный ответ, который в данном случае является правильным.

Менеджер продукта может использовать метод брейнсторминга для генерации нескольких идей, прежде чем перейти к методу приоритизации для их ранжирования по жизнеспособности или эффекту. Аналогично обучающийся, готовящийся к экзамену, может использовать дедуктивное мышление для ответа на вопросы и индуктивное мышление для подтверждения результатов. Поэтому они предлагают модульную стратегию ответа на усовершенствования, позволяющую применять различные тактики. В этой статье исследователи из ETH Цюриха и Microsoft Semantic Machines представляют SCREWS – модульную рамку для рассуждения об изменениях. Выборка, условная повторная выборка и выбор являются тремя основными компонентами архитектуры, подробно представленными на рисунке 2. Они создают SCREWS, фиксируя подмодули для каждого модуля (например, они могут выбрать “Цепочка мыслей” для выборки). Это делается для конкретной работы и последовательности ввода.

Рисунок 2 показывает общую картину модульной системы SCREWS для рассуждения о внесенных изменениях. Три крупных блока (или “модуля”) содержат несколько выборов (или “подмодулей”). Множество предыдущих разработок, включая Self-Refine, Least to Most, LLMs Know (Mostly), Self-Consistency, Self-Improve, PHP CoT, Self-Correct, Socratic CoT, Programme of Thoughts и многие другие, можно рассматривать как примеры данного фреймворка. (…) обозначает дополнительные подкомпоненты, которые могут быть добавлены в каждый модуль, включая, но не ограничиваясь, кэшированную память или онлайн-поиск для модуля выборки, тонко настроенную модель или внешний проверяющий для модуля условной повторной выборки и выбор на основе людей или оракула для модуля выбора.

Первичные результаты выборки передаются для условной повторной выборки, которая определяет, создавать ли версию на основе исходной выборки и делает это, если необходимо. Затем модуль выбора выбирает лучший из всех выборок и версий. Благодаря модульной конструкции своего фреймворка можно использовать дополнительные элементы для повышения производительности нескольких новых предложенных самоусовершенствующихся подходов. Один из примеров – комбинация техники выбора, основанной на модели, и метода самоусовершенствования, что может улучшить общую производительность. Они используют ChatGPT или GPT-4 для оценки SCREWS на различных задачах рассуждения, включая многошаговое вопросно-ответное обучение, арифметическое рассуждение и отладку кода.

По сравнению со стандартными методами выборки и ресемплинга, их предложенные решения обеспечивают значительное улучшение (10–15%). Они демонстрируют ценность гетерогенной выборки, показывая, как это может повлиять на логику модели и существенно улучшить базовые значения при очень низкой общей стоимости. Они также объясняют значение подхода выбора на основе модели, что является ключевым элементом современных LLM-моделей, позволяющим модели возвращаться к ранним, более надежным выводам.