Исследователи из Стэнфорда и Майкрософт представляют автоматическое усовершенствование искусственного интеллекта использование GPT-4 для повышения эффективности программы строительных лесов.

Стэнфорд и Майкрософт разработали GPT-4 для эффективного усовершенствования программы построения лесов новый шаг в использовании искусственного интеллекта.

Почти все цели, описанные естественным языком, можно оптимизировать, обратившись к языковой модели. Однако программа может чаще выдавать результаты с большими значениями целевой функции, используя организованные вызовы языковой модели. Они называют такие программы “опорными”, и их часто создают (люди) с использованием компьютерного языка, такого как Python. Их основное открытие заключается в том, что дизайн опорной программы является проблемой оптимизации для любого распределения задач оптимизации и любой языковой модели. Исследователи из исследовательского отдела Microsoft и Стэнфордского университета в этой статье описывают Self-Taught Optimizer (STOP) – технику, при которой рекурсивное применение кода, использующего языковую модель для улучшения любого данного решения, приводит к самоусовершенствованию.

Их метод начинается с начальной затравочной программы “улучшателя”, которая использует языковую модель для улучшения ответа на последующую задачу. Модель улучшает эту программу улучшения по мере итераций системы. Для измерения эффективности своей самооптимизирующейся архитектуры они применяют ограниченный выбор последующих алгоритмических задач. Их результаты показывают, что модель улучшается, когда она проходит через больше итераций, используя свои методы самоулучшения. STOP демонстрирует, как языковые модели могут функционировать как их мета-оптимизаторы в этом случае. Кроме того, они анализируют типы тактик самоулучшения, которые модель (см. Рис. 1) предлагает, насколько хорошо рекомендуемые стратегии переносятся на последующие задачи и уязвима ли модель для рискованных методов самоулучшения.

Рисунок 1: Здесь показаны примеры тактик самоулучшения, предлагаемых и используемых GPT-4. Произвольный код, включая сам код опорной программы, затем корректируется с применением каждой тактики в качестве опоры.

Поскольку основная языковая модель не изменяется, эта проблема называется рекурсивной генерацией кода, улучшающего себя, вдохновленной, но не полностью соответствующей системе рекурсивного самоулучшения (RSI). Прошло как минимум 50 лет с момента формализации концепции RSI исследователями. Однако в том исследовании сосредоточились на создании систем, более компетентных в общем, и подразумевалось, что модель может улучшить каждую часть своего кода. Их исследование является скромным шагом в этом направлении, поскольку оно рассматривает только возможность модели улучшить опору, вызывающую ее итеративно. Проблема генерации кода RSI в первый раз определена формально в этом исследовании.

Затем они создают и оценивают STOP, чтобы показать возможное использование генерации кода RSI. Различные последующие задачи продемонстрировали улучшения. При использовании версии языковой модели GPT-4, обученной на данных до 2021 года, задолго до появления большинства систем опоры, Рисунок 1 демонстрирует несколько интересных и полезных опор, которые предлагает STOP. Дополнительные тесты отслеживают, насколько часто модель пытается отключить флаг песочницы. Наконец, они решают проблемы этичного развития такой технологии.

Основные вклады этой работы:

  1. Формулировка стратегии мета-оптимизации, при которой система опоры рекурсивно улучшает саму себя.
  2. Демонстрация того, что данная система успешно улучшает сама себя с использованием современной языковой модели (в частности, GPT-4).
  3. Исследование предлагаемых и реализованных моделью тактих самоулучшения, включая то, как модель избегает мер предосторожности, таких как песочница.