Это исследование искусственного интеллекта представляет подробный обзор открытых больших языковых моделей, которые утверждают, что они догоняют или превосходят ChatGPT в различных задачах.

Детальный обзор открытых больших языковых моделей искусственного интеллекта, предлагающих сверх ChatGPT по разным задачам

Недавнее выпуск ChatGPT в прошлом году потряс индустрию искусственного интеллекта. Основанный на трансформерной архитектуре GPT, которая является последней моделью Large Language Model, ChatGPT оказал значительное влияние на как академические, так и коммерческие области применения. Чат-бот легко может отвечать на запросы людей, генерировать контент, отвечать на вопросы и выполнять ряд задач, используя возможности обучения с подкреплением от обратной связи человека (RLHF) и настройки на основе инструкций через обучение в режиме просмотренной доводки.

В последнем исследовании команда исследователей из NTU Singapore, SalesForce AI и I2R провела обширное исследование, чтобы составить обзор последних исследований в области моделей с открытым исходным кодом Large Language Models (LLMs) и предоставить полное представление о моделях, которые выполняют так же хорошо или даже лучше, чем ChatGPT, в различных контекстах. Выпуск и успех ChatGPT привели к всплеску интереса к LLM-моделям, поскольку как академическая, так и коммерческая сферы наблюдали большое количество новых LLM-моделей, часто созданных стартапами, посвященными этой области.

Хотя замкнутые LLM-модели, такие как Anthropic’s Claude, в целом продемонстрировали более высокие результаты, модели, такие как GPT от OpenAI, развивались намного быстрее. Возникла все большая вера в достижение равной или даже лучшей производительности в определенных задачах, что подвергло риску историческое господство замкнутых моделей.

В отношении исследований непрерывный выпуск новых LLM-моделей с открытым исходным кодом и их заявленные успехи заставили пересмотреть преимущества и недостатки этих моделей. Развитие программного обеспечения для языкового моделирования с открытым исходным кодом представило бизнес-сфере вызовы для организаций, желающих внедрить языковые модели в свою деятельность. Благодаря возможности получения производительности, сравнимой или даже лучшей, чем у проприетарных альтернатив, у бизнеса сейчас появилось больше вариантов и выбора при выборе лучшей модели для своих уникальных потребностей.

Команда поделилась тремя основными категориями, которые могут использоваться для описания вклада их исследования.

  1. Обобщение оценок: Исследование составило множество оценок открытых LLM-моделей, чтобы предложить объективный и полный взгляд на то, как эти модели отличаются от ChatGPT. Этот синтез позволяет читателям полноценно понять преимущества и недостатки открытых LLM-моделей по сравнению с базовым уровнем ChatGPT.
  1. Систематический обзор моделей: Были рассмотрены открытые LLM-модели, которые выполняют работу так же хорошо или даже лучше, чем ChatGPT, в различных задачах. Команда также поделилась своей веб-страницей, которую они будут обновлять в режиме реального времени, чтобы читатели могли видеть последние изменения, что отражает динамический характер развития открытых LLM-моделей.
  1. Советы и полезные сведения: Помимо обзоров и оценок, опрос предоставляет полезную информацию о тенденциях, влияющих на развитие открытых LLM-моделей. Были также обсуждены потенциальные проблемы с этими моделями и лучшие практики по обучению открытых LLM-моделей. Эти результаты предоставили подробную перспективу существующего контекста и будущего потенциала открытых LLM-моделей, учитывая как корпоративный сектор, так и научное сообщество.