Могут ли языковые модели размышлять за рамками слов? Исследование неявного мышления в многокошелевых скрытых состояниях для сложных задач.
Размышления языковых моделей исследование неявного мышления в скрытых состояниях для сложных задач
Большие модели языка (LLMs) продемонстрировали замечательные способности в задачах, таких как понимание и рассуждение на языке, отмечая парадигмальный сдвиг в способе взаимодействия с системами искусственного интеллекта. Чтобы улучшить компетентность LLMs, исследователи обычно используют метод цепной силы мысли, который включает промежуточные этапы рассуждения для направления ответа модели. Хотя этот метод подобен тому, как люди решают проблему, он не полностью использует вычислительные возможности LLMs, и авторы этой статьи попытались исследовать альтернативный подход к рассуждению.
Методы цепной силы мысли (CoT) показали отличные результаты, но их использование имеет недостатком в том, что они замедляют генерацию желаемого окончательного ответа. Исследователи представили новый подход, называемый неявной цепочкой рассуждений, который, как следует из названия, делает этапы рассуждения CoT неявными, чтобы модель непосредственно производила окончательный ответ.
В отличие от явного рассуждения CoT, где LLM обучается производить промежуточные шаги перед окончательным результатом, в неявном рассуждении CoT модель видит промежуточные шаги только во время обучения, а не во время тестирования. Она обрабатывает эти шаги в своих внутренних состояниях и учится полностью внедрить концепт, обойдя явное рассуждение.
- Введение в поточный анализ LLM LLM для неограниченной длины входных данных.
- Создайте свои собственные GPT с помощью GPT от ChatGPT!
- Теперь у трехмерных моделей тела есть звук Meta AI представляет модель искусственного интеллекта, способную генерировать точный трехмерный пространственный звук для полного человеческого тела.
Исследователи использовали метод “обучение учителю” вместо традиционного метода “принудительного обучения”, чтобы достичь неявного рассуждения CoT. Их стратегия сначала заключается в обучении учебной модели читать скрытые состояния учителя и использовать некоторые из них для получения окончательного ответа. Затем они применяют метод передачи знаний, процесс передачи знаний от большой модели к меньшей. Они обучают имитатору предсказывать скрытые состояния учителя на основе входных данных. Важно, что эмуляция происходит вертикально по слоям модели, устраняя необходимость в явных рассуждениях.
Окончательный шаг заключается в объединении имитатора с учеником, который производит окончательный результат на основе эмулированного процесса мышления учителя. Затем система оптимизируется на всем протяжении, позволяя модели-ученику развить свои собственные методы рассуждения, которые могут отличаться от методов учителя.
Исследователи провели эксперименты по двум задачам – умножение многозначных чисел и задачи математики начальной школы. Результаты показали, что их метод позволяет моделям решать ранее неразрешимые задачи без явного рассуждения CoT. Они обнаружили, что модель GPT-2 Small, которая достигла точности 97% в умножении чисел с 4 знаками при неявном рассуждении CoT, плохо справилась с задачами умножения чисел с 5 знаками, что указывает на то, что эффективность методики зависит от наличия достаточного количества промежуточных слоев для требуемых вычислений. Они также заметили, что техника неявного рассуждения CoT имеет более высокую скорость вывода, особенно для задач, требующих несколько промежуточных шагов.
Некоторые основные проблемы этой техники – это отсутствие прозрачности, сильная зависимость от мыслительных процессов учителя и недостаточная производительность по сравнению с явным рассуждением CoT. Однако эта работа является только первым шагом к созданию неявного рассуждения CoT, и исследователи считают, что ее можно еще дальше оптимизировать и расширить возможности LLM в рассуждении.