Эта статья по искусственному интеллекту представляет показатель оценки роли сложности кода в улучшении рассуждений больших языковых моделей — Complexity-Impacted Reasoning Score (CIRS).

This article on artificial intelligence presents an indicator for evaluating the role of code complexity in improving the reasoning of large language models - Complexity-Impacted Reasoning Score (CIRS).

Большие языковые модели (LLM) стали универсальным подходом к решению проблем искусственного интеллекта воплощенных агентов. Когда агентам необходимо понимать семантические тонкости их окружения для эффективного управления, навыки логического мышления LLM являются важными в воплощенном искусственном интеллекте. Недавние методы, которые они называют “программами мысли”, используют языки программирования в качестве улучшенной системы подсказок для решения сложных задач логического мышления. Подход программы мысли разделяет проблемы на выполнимые кодовые сегменты и рассматривает их по одному, в отличие от подхода цепочки мыслей. Однако связь между использованием языков программирования и развитием навыков логического мышления LLM до сих пор недостаточно исследована. Когда работает подсказка программы мысли для логического мышления2 остается важным вопросом?

В данной статье предлагается комплексный показатель сложности рассуждений, влияющей на связь между этапами логического рассуждения на коде и их влиянием на способности LLM к логическому мышлению. Они считают, что языки программирования по своей природе превосходят сериализованный естественный язык из-за (1) улучшения моделирования сложных структур и (2) врожденной процедурно-ориентированной логики, которая помогает решать сложности, связанные с несколькими шагами мышления. Поэтому их предложенная мера оценивает сложность кода как с точки зрения структуры, так и с логической точки зрения. Они вычисляют структурную сложность этапов логического рассуждения (обоснования) с использованием абстрактного синтаксического дерева (AST). Их метод использует три показателя AST (число узлов, тип узла и глубина) для представления всей структурной информации в AST, что позволяет полностью понять структуры кода.

Исследователи из Университета Чжэцзян, Лаборатории Дунхай и Национального университета Сингапура разработали способ определения логической сложности, объединив сложность кодирования с цикломатической сложностью, вдохновившись идеей Хэлстеда и МакКейба. Таким образом, можно рассматривать операторы, операнды и поток управления кода. Они могут явно оценить сложность логики внутри кода. Они обнаружили в результате эмпирического исследования с использованием предложенной CIRS, что текущие LLM имеют ограниченное понимание символической информации, такой как код, и что не все сложные данные кода могут быть обучены и поняты LLM. Кодовые блоки с низкой сложностью не имеют необходимой информации, но кодовые блоки с высокой сложностью могут быть слишком сложными для понимания LLM. Чтобы эффективно улучшить логические способности LLM, требуются только данные кода с подходящей сложностью (структура и логика), как базовой, так и подробной.

Они предлагают метод автоматического синтезирования и классификации данных, которые могут создавать и исключать данные с наибольшей способностью к рассуждениям. Они используют свой подход в двух различных ситуациях: (1) направление создания инструкций для деятельности, требующей математического мышления; (2) фильтрация кодовых данных для деятельности, связанной с созданием кода. Их предложенная стратегия превосходит базовые модели в математическом рассуждении и демонстрирует успех в решении задач создания кода.

Их вклад в данное издание:

• Они предлагают CIRS – уникальный подход к измерению сложности рассуждений для кодовых данных. Их метод, анализирующий кодовые данные с логической и структурной точек зрения, позволяет точно измерять связь между сложностью кода и способностью к рассуждениям.

• Они проводят эмпирический анализ влияния различных уровней сложности, определяя оптимальную степень языков программирования, которую LLM могут изучить как ключевой фактор развития навыков логического мышления с использованием программы мысли.

• Они создают алгоритм автоматического синтеза и классификации и используют свой метод для фильтрации кодовых данных и создания инструкций для задач, требующих математического рассуждения. Множество результатов подтверждает жизнеспособность их предложенной точки зрения.