Исследователи Google DeepMind предлагают оптимизацию при помощи PROmpting (OPRO) использование больших языковых моделей в качестве оптимизаторов

Researchers at Google DeepMind propose using large language models as optimizers through PROmpting (OPRO) optimization.

С постоянным развитием в области искусственного интеллекта и его подобластей, включая обработку естественного языка, генерацию естественного языка, понимание естественного языка и компьютерное зрение, они становятся значительно популярными. Большие языковые модели (LLM), которые недавно привлекли много внимания, используются в качестве оптимизаторов. Их возможности используются для понимания естественного языка с целью улучшения процедур оптимизации. Оптимизация имеет практическое значение во многих отраслях и контекстах. Оптимизационные методы на основе производных исторически показали свою эффективность в решении различных проблем.

Это сопряжено с определенными трудностями, так как градиенты могут быть доступны только в определенных ситуациях реального мира, что представляет сложные проблемы. Для решения этих проблем команда исследователей из Google DeepMind представила уникальный подход, называемый Оптимизацией с помощью ПРОмптинга (ОПРО) в качестве решения данной проблемы. С использованием LLM в качестве оптимизаторов, ОПРО предоставляет простую, но невероятно мощную технику. В данном случае основной новизной является использование повседневного языка для выражения задач оптимизации, что делает процесс более простым и доступным.

ОПРО начинается с предоставления описания оптимизационной задачи на естественном языке. Это означает, что проблема формулируется с использованием простого языка, а не запутанных математических формул, что облегчает ее понимание. Во-вторых, предоставляется итеративное создание решений. LLM создает новые варианты решений для каждого шага оптимизации в зависимости от заданного естественного языкового подсказки. Эта подсказка, которая является значимой, содержит сведения о ранее созданных решениях и их связанных значениях. Эти традиционные варианты служат отправной точкой для дальнейшего развития.

Затем разрабатываются обновленные и оцениваются решения, и оценивается их производительность или качество. Подсказка для следующего шага оптимизации содержит эти решения после их проверки. Решения постепенно улучшаются по мере продвижения итеративного процесса. Были использованы некоторые практические примеры для иллюстрации эффективности ОПРО. В начале ОПРО использовался для решения двух известных оптимизационных задач: задачи линейной регрессии и задачи коммивояжера. Эти проблемы являются важными и служат стандартом для оценки эффективности метода. ОПРО продемонстрировал свою способность находить отличные решения этих задач.

Во-вторых, он использовался для оптимизации подсказок. ОПРО вышел за рамки решения конкретных оптимизационных задач. Была рассмотрена также проблема оптимизации самих подсказок. Целью было найти инструкции, которые увеличивают точность выполнения задачи. Это особенно актуально для задач, связанных с обработкой естественного языка, где структура и содержание подсказки оказывают большое влияние на результат.

Команда показала, что оптимизированные ОПРО-подсказки всегда превосходят подсказки, созданные людьми. В одном случае они повышают производительность на тяжелых рабочих нагрузках Big-Bench на удивительные 50% и на до 8% на тестовом наборе GSM8K. Это демонстрирует значительный потенциал ОПРО в улучшении результатов оптимизации.

В заключение, ОПРО представляет собой революционный метод оптимизации, использующий большие языковые модели. ОПРО демонстрирует свою эффективность в решении общих проблем оптимизации и улучшении подсказок, объясняя задачи оптимизации на обычном языке и постоянно создавая и улучшая решения. Результаты показывают значительное улучшение производительности по сравнению с традиционными подходами, особенно когда информация о градиенте либо недоступна, либо трудно собирается.