Исследователи из NYU и Google AI исследуют границы машинного обучения в области продвинутого дедуктивного мышления.

NYU и Google AI Исследование границ машинного обучения в области продвинутого дедуктивного мышления

Занятость множества правил вычета и построение поддоказательств позволяют развиваться бесконечно во многих логических задачах, таких как медицинская диагностика или теоремное доказательство. Найти данные, охватывающие все возможные размеры доказательств, весьма непрактично из-за огромного пространства доказательств. Следовательно, начиная с базовых доказательств, общая модель логического рассуждения должна быть способна экстраполировать до более сложных.

Команда исследователей из NYU и Google AI продемонстрировала, что многослойные языковые модели могут заниматься логическими рассуждениями, когда их обучают контекстным обучением (ICL) и пошаговым размышлением (CoT). Несколько правил вычета, таких как модус поненс, являются основным упором предыдущих исследований. Оценка также происходит в демонстрационном режиме, что означает, что тестовый случай выбирается из того же распределения, что и контекстные демонстрации.

Возможность многослойных языковых моделей обобщать на более сложные доказательства, чем представленные демонстрации, является предметом нового исследования, проведенного исследователями из Нью-Йоркского университета, Google и Бостонского университета. Ученые классифицируют доказательства по трем измерениям:

  • Количество посылок, использованных на каждом этапе демонстрации.
  • Длина последовательной цепочки шагов, составляющих доказательство.
  • Используемые правила вычета.

Его полный размер зависит от всех трех измерений.

Группа дополняет предыдущие исследования по двум важным аспектам, чтобы оценить общую возможность многослойных языковых моделей рассуждать логически. Помимо модуса поненса, они проверяют, владеют ли многослойные языковые модели всеми правилами вычета. Их способность рассуждать тестируется двумя способами:

  1. Обобщение по глубине и ширине включает рассуждение над более длинными доказательствами, чем представленные в контекстных примерах.
  2. Композиционное обобщение включает использование множества правил вычета в одном доказательстве.

Согласно их исследованию, задачи рассуждения наиболее выгодно решаются контекстным обучением, когда представлены базовые примеры, иллюстрирующие разнообразие правил вычета. Чтобы избежать переобучения модели, контекстные примеры должны включать правила вычета, с которыми она не знакома, такие как доказательство раздела на случаи и доказательство от противного. Кроме того, эти примеры должны сопровождаться отвлекающими элементами.

Согласно их выводам, пошаговое размышление может способствовать рассуждению за пределами области в применении к композиционным доказательствам для многослойных языковых моделей. К таким моделям относятся GPT-3.5 175B, PaLM 540B, LLaMA 65B и FLAN-T511B, которые различаются по масштабу и целям обучения. Это открытие удивительно, учитывая множество литературы, утверждающей, что многослойные языковые модели не способны на композиционное обобщение. Контекстное обучение обобщается независимо от обучения с учителем, в частности градиентного спуска на контекстных примерах. Представление контекстных примеров из того же распределения, что и тестовый пример, является хуже, так как они были обнаружены в нескольких экземплярах. Например, когда контекстные примеры включают определенные правила вычета, исследователи иногда наблюдали большую общность в композиционных доказательствах.

Кажется, что предварительное обучение не научило модель создавать гипотетические поддоказательства. Без явных примеров многослойные языковые модели не могут обобщать на определенные правила вычета (например, доказательство раздела на случаи и противоречивость). Связь между размером модели и ее производительностью слабая. С помощью подгонки инструкций и более длительного предварительного обучения, меньшие модели (не самые маленькие, но сопоставимые) могут конкурировать с более крупными.

Чтобы дальше изучить процесс активации ICL и CoT, исследователи обращают внимание на важную область для будущих исследований. Они обнаружили, что лучшие контекстные примеры часто отличаются от распределения тестового примера, даже для определенного тестового примера. Байесовское выводание и градиентный спуск не учитывают этого. Их интересует, будут ли простые примеры работать лучше, даже если тестовый случай является относительно сложным. Дополнительные исследования требуются, чтобы понять, как лучше характеризовать экстраполяцию из конкретных случаев.