Исследователи Microsoft Research и Университета Цинхуа предложили Skeleton-of-Thought (SoT) новый подход искусственного интеллекта для ускорения генерации LLMs

Исследователи Майкрософт Ресерч и Университета Цинхуа представили новый подход к искусственному интеллекту под названием Skeleton-of-Thought (SoT) для более эффективной генерации LLMs

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-23-at-4.05.36-PM-1024×573.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-23-at-4.05.36-PM-150×150.png”/><p>Большие модели языка (LLM), такие как GPT-4 и LLaMA, несомненно, изменяют технологическую среду. Однако медленная обработка данных – повторяющаяся проблема, ограничивающая их широкое применение. Несмотря на их удивительные возможности, время, затраченное на получение ответов от LLM, затрудняет их эффективность, особенно в приложениях, требующих низкой задержки, таких как чат-боты, помощники и промышленные контроллеры. Понимая необходимость решения этой фундаментальной проблемы, исследователи из Microsoft Research и Университета Цинхуа представили инновационный подход, названный Skeleton-of-Thought (SoT).</p><p>Традиционно, усиление скорости работы LLM связано с аккуратными изменениями моделей, систем или оборудования. Однако исследовательская команда выбирает другой подход с помощью SoT. В отличие от конвенциональных методов, SoT избегает значительных изменений в LLM, рассматривая их как черные ящики. Фокус смещается с изменения внутренней работы моделей на оптимизацию организации их выходного контента. Предлагаемое решение побуждает LLM выполнять уникальный двухэтапный процесс. На первом этапе LLM направляется на создание скелета ответа. Затем, на втором этапе, LLM получает задачу параллельного развертывания нескольких точек внутри скелета. Такой подход предлагает новый способ повысить время ответа LLM без необходимости сложной настройки архитектуры модели.</p><p>Методология SoT включает разделение процесса генерации контента на два отдельных этапа. Вначале LLM просят создать скелет ответа. Этот шаг соответствует тому, как люди часто подходят к решению проблемы, составляя общую структуру. На втором этапе используется этот скелет для параллельного развертывания, позволяя LLM одновременно решать несколько вопросов. Этот подход применим к моделям с открытым исходным кодом, таким как LLaMA, и моделям на основе API, таким как GPT-4, демонстрируя свою универсальность.</p><figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/54-Y8RMINluusQEm0QGzd4BW-Duw-tqhxCzZXg7NdJTH6dAHAU7MTqaUXYfm3ZXlZHlT352sLDJqZA_Xvg61kPY6u-halUwJKKVfCcUPADsFx9MDB5_aPKfV2g3pKnDQhJP3SaLO0jvYvXnLyri1IhA”/></figure><p>Для оценки эффективности SoT, исследовательская команда провела обширные тесты на 12 недавно выпущенных моделях, охватывающих как модели с открытым исходным кодом, так и модели на основе API. Команда обнаружила значительное ускорение при использовании набора данных Vicuna-80, включающего вопросы из различных областей, таких как кодирование, математика, письмо и ролевые игры. SoT достигло ускорения в диапазоне от 1.13x до 2.39x на восьми 12 моделях. Важно отметить, что это ускорение достигается без ущерба качеству ответа. Команда использовала метрики FastChat и LLMZoo для оценки качества ответов SoT, демонстрируя способность сохранять или улучшать качество ответов в различных категориях вопросов.</p><figure><img alt=”” src=”https://ai.miximages.com/lh7-us.googleusercontent.com/fO9hh_p1JjKF_6OsbyWoBOLMTWIBBdeM379Adb4meU-MQIaUgscykEQOTgWHX0doPLEF1Qb1Yji0G9Lc2OcPR06ISEpYJzqXYboHNKLOVs6zvKETf5GLGscrjxWyVGweoU49eTV9Xl4Mvh5Z6O6TkOU”/></figure><p>В заключение, SoT представляет собой перспективное решение для постоянной проблемы медленных LLM. Инновационный подход исследовательской команды к рассмотрению LLM как черных ящиков и фокусировки на оптимизации эффективности на уровне данных предлагает новое представление о ускорении генерации контента. Побуждая LLM создавать скелет ответа, а затем выполнять параллельное развертывание, SoT предлагает эффективный способ улучшить время отклика. Результаты оценки показывают не только значительное ускорение, но и способность сохранять или улучшать качество ответов, решая двойные проблемы эффективности и эффективности. Эта работа открывает перспективы для будущих исследований в области динамичных процессов мышления искусственного интеллекта, стимулируя переход к более эффективным и универсальным моделям языка.</p>