Первая годовщина ChatGPT переформатирование будущего взаимодействия с искусственным интеллектом

Первая годовщина ChatGPT революция взаимодействия с искусственным интеллектом

Оглядываясь на первый год работы ChatGPT, становится ясно, что этот инструмент значительно изменил сцену искусственного интеллекта. Запущенный в конце 2022 года, ChatGPT выделялся своим удобным для пользователя разговорным стилем, который делал взаимодействие с искусственным интеллектом более похожим на общение с человеком, а не с машиной. Этот новый подход быстро привлек внимание общественности. Всего через пять дней после его выпуска ChatGPT уже привлек миллион пользователей. К началу 2023 года это число выросло до примерно 100 миллионов ежемесячных пользователей, а к октябрю платформа привлекала около 1,7 миллиарда посещений по всему миру. Эти цифры говорят о его популярности и полезности.

За последний год пользователи нашли все новые креативные способы использования ChatGPT, начиная с простых задач, таких как написание электронных писем и обновление резюме, и заканчивая запуском успешных бизнесов. Но дело не только в том, как люди его используют; сама технология выросла и улучшилась. Изначально ChatGPT был бесплатным сервисом, предлагающим подробные текстовые ответы. Теперь есть ChatGPT Plus, включающий ChatGPT-4. Эта обновленная версия обучается на большем количестве данных, дает меньше неправильных ответов и лучше понимает сложные инструкции.

Одно из самых значительных обновлений заключается в том, что теперь ChatGPT может взаимодействовать различными способами – он может слушать, говорить и даже обрабатывать изображения. Это означает, что вы можете общаться с ним через его мобильное приложение и показывать ему изображения, чтобы получать ответы. Эти изменения открыли новые возможности для искусственного интеллекта и изменили то, как люди смотрят и думают о роли искусственного интеллекта в нашей жизни.

От его начала как технической демонстрации до его нынешнего статуса великого игрока в мире технологий, путь ChatGPT довольно впечатляющий. Изначально он был рассмотрен как способ тестирования и улучшения технологии путем получения отзывов от публики. Но он быстро стал неотъемлемой частью ландшафта искусственного интеллекта. Этот успех показывает, насколько эффективно настраивать большие языковые модели с помощью как обучения с учителем, так и обратной связи от людей. В результате ChatGPT может справляться с широким спектром вопросов и задач.

Гонка за разработкой наиболее продвинутых и гибких систем искусственного интеллекта привела к распространению как открытых, так и проприетарных моделей, подобных ChatGPT. Для понимания их общих возможностей требуются всеобъемлющие показатели по широкому спектру задач. В этом разделе исследуются такие показатели, рассветляющие разницу между различными моделями, включая ChatGPT.

Оценка ЯММ: Показатели

  1. MT-Bench: Этот показатель тестирует способности многоходового разговора и следования инструкциям в восьми областях: письменная речь, ролевые игры, извлечение информации, рассуждение, математика, программирование, знания в области естественных и точных наук, а также гуманитарные и социальные науки. В качестве оценщиков используются более мощные ЯММ, такие как GPT-4.
  2. AlpacaEval: Основываясь на наборе данных AlpacaFarm, этот автоматический оценщик на основе ЯММ сравнивает модели с ответами от продвинутых ЯММ, таких как GPT-4 и Claude, расчитывая долю побед кандидатов.
  3. Открытый рейтинг ЯММ: Используя программное обеспечение для оценки моделей языковых моделей, этот рейтинг оценивает ЯММ по семи ключевым показателям, включая рассуждения и тесты на общие знания, как в условиях “нулевого обучения”, так и “малого объема обучающей выборки”.
  4. BIG-bench: Этот совместный показатель охватывает более 200 новых языковых задач, охватывающих разнообразные темы и языки. Он стремится исследовать ЯММ и прогнозировать их будущие возможности.
  5. ChatEval: Проект многопользовательского дебата, позволяющий командам автономно обсуждать и оценивать качество ответов от различных моделей по открытым вопросам и традиционным задачам генерации естественного языка.

Сравнительная производительность

Что касается общих показателей, открытые ЯММ показали замечательный прогресс. Модель Llama-2-70B, например, достигла впечатляющих результатов, особенно после настройки с использованием данных инструкций. Вариант этой модели, Llama-2-chat-70B, превосходил в AlpacaEval соотношением побед в 92,66%, обойдя GPT-3.5 Turbo. Однако GPT-4 остается лидером с показателем побед в 95,28%.

Модель Zephyr-7B, более компактная, продемонстрировала свои возможности, сопоставимые с большими моделями LLM объемом 70B, особенно в AlpacaEval и MT-Bench. В то же время модель WizardLM-70B, настроенная на разнообразные данные инструкций, набрала самый высокий балл среди открытых ЯММ в показателе MT-Bench. Однако она все еще отстает от GPT-3.5 Turbo и GPT-4.

Интересная запись, GodziLLa2-70B, достигла конкурентоспособного результата на Open LLM Leaderboard, продемонстрировав потенциал экспериментальных моделей, объединяющих разнообразные наборы данных. Аналогично, разработанный с нуля Yi-34B выделялся результатами, сравнимыми с GPT-3.5-turbo и лишь незначительно уступая GPT-4.

UltraLlama, благодаря своей настройке на разнообразные и высококачественные данные, соответствовал GPT-3.5-turbo в предлагаемых метриках и даже превосходил его в области мирового и профессионального знания.

Масштабирование: Возникновение гигантских LLM

Модели LLM

Ведущие модели LLM с 2020 года

Заметным трендом в развитии LLM стало увеличение параметров моделей. Модели, такие как Gopher, GLaM, LaMDA, MT-NLG и PaLM, выходили за рамки привычных границ, достигая объема до 540 миллиардов параметров. Эти модели проявили исключительные возможности, но их закрытый исходный код ограничил их широкое применение. Это ограничение стимулировало интерес к разработке открытых исходных кодов LLM, тренд, набирающий обороты.

Параллельно с увеличением размеров моделей, исследователи исследовали альтернативные стратегии. Вместо простого увеличения размеров моделей, они сосредоточились на улучшении предварительного обучения более маленьких моделей. Примерами являются Chinchilla и UL2, которые показали, что больше не всегда значит лучше; более умные стратегии могут привести к эффективным результатам. Кроме того, значительное внимание было сосредоточено на настройке инструкций языковых моделей, и проекты, такие как FLAN, T0 и Flan-T5, внесли значительный вклад в эту область.

Катализатор ChatGPT

Введение ChatGPT от OpenAI стало поворотным моментом в исследованиях NLP. Для конкуренции с OpenAI компании, такие как Google и Anthropic, запустили свои собственные модели, Bard и Claude соответственно. Хотя эти модели во многих задачах проявляют сопоставимую производительность с ChatGPT, они все же отстают от последней модели OpenAI, GPT-4. Успех этих моделей главным образом обуславливается обучением с подкреплением от обратной связи от людей (RLHF), техникой, которая получает все больше внимания в исследованиях с целью дальнейшего совершенствования.

Слухи и предположения около Q* (Q-Star) от OpenAI

Недавние отчеты свидетельствуют о том, что исследователи OpenAI могут достичь значительного прогресса в ИИ с разработкой новой модели под названием Q* (произносится как Q star). Предположительно, Q* обладает способностью выполнять математику на уровне начальной школы, что стало поводом для обсуждения среди экспертов его потенциала в качестве вехи на пути к искусственному общему интеллекту (AGI). В то время как OpenAI не прокомментировала эти отчеты, предполагаемые способности Q* вызвали значительное волнение и спекуляции в социальных сетях среди энтузиастов по ИИ.

Разработка Q* заслуживает внимания, поскольку существующие языковые модели, такие как ChatGPT и GPT-4, хотя и способны выполнять некоторые математические задачи, не особо хорошо справляются с ними надежно. Проблема заключается в том, что ИИ-моделям необходимо не только распознавать паттерны, как они делают это сейчас с помощью глубокого обучения и трансформеров, но и уметь рассуждать и понимать абстрактные концепции. Математика, являясь эталоном рассуждения, требует от ИИ-системы планирования и выполнения нескольких шагов, демонстрируя глубокое понимание абстрактных концепций. Эта способность далеко опережает возможности ИИ, потенциально выходящие за рамки применения только в математике и распространяющиеся на другие сложные задачи.

Однако эксперты предостерегают от излишнего раздувания этого развития. Хотя система ИИ, которая надежно решает математические задачи, является впечатляющим достижением, это не обязательно сигнализирует о приходе сверхумной ИИ или АГИ. Современные исследования в области ИИ, включая усилия OpenAI, сфокусированы на элементарных задачах с разной степенью успеха в более сложных заданиях.

Потенциальные области применения подобных достижений, таких как Q*, весьма обширны и вариативны, начиная от персонализированного обучения до помощи в научных исследованиях и инженерии. Однако также важно управлять ожиданиями и узнавать ограничения и проблемы безопасности, связанные с такими достижениями. Опасения об интеллектуальных рисках ИИ, являющиеся основной озабоченностью OpenAI, остаются в силе, особенно когда системы ИИ начинают все больше взаимодействовать с реальным миром.

Движение открытого исходного кода LLM

Для повышения возможностей исследования open-source LLM, Meta выпустила серию моделей Llama, вызвав новую волну разработок на основе Llama. Это включает модели, настроенные на инструкционные данные, такие как Alpaca, Vicuna, Lima и WizardLM. Исследования также идут в направлении усовершенствования возможностей агентов, логического рассуждения и моделирования в рамках основанного на Llama фреймворка.

Кроме того, наблюдается растущая тенденция к разработке мощных LLM с нуля, благодаря проектам, таким как MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grok и Yi. Эти усилия отражают стремление демократизировать возможности закрытых LLM, сделав передовые инструменты искусственного интеллекта более доступными и эффективными.

Воздействие ChatGPT и моделей с открытым исходным кодом в здравоохранении

Мы смотрим в будущее, где LLM-ы помогают в составлении клинических записей, заполнении форм для возмещения расходов и поддержке врачей при диагностике и планировании лечения. Это привлекло внимание как технологических гигантов, так и медицинских учреждений.

Один из примеров – переговоры Microsoft с Epic, ведущим поставщиком программного обеспечения для электронных медицинских записей, сигнализируют о интеграции LLM в здравоохранение. Инициативы уже реализуются в UC San Diego Health и Медицинском Центре Стэнфордского Университета. Аналогично, партнерства Google с Mayo Clinic и запуск HealthScribe – сервиса по AI документации клинических данных от Amazon Web Services – являются значительными шагами в этом направлении.

Однако быстрые внедрения вызывают опасения относительно передачи контроля над медициной корпоративным интересам. Собственный характер этих LLM-ов делает их сложными для оценки. Их возможная модификация или прекращение по причинам прибыльности может подорвать заботу о пациентах, конфиденциальность и безопасность.

Неотложной необходимостью является открытый и инклюзивный подход к разработке LLM в сфере здравоохранения. Учреждения здравоохранения, исследователи, врачи и пациенты должны сотрудничать на глобальном уровне для создания open-source LLM для здравоохранения. Этот подход, подобный Консорциуму Триллиона Параметров, позволил бы совместное использование вычислительных, финансовых ресурсов и экспертизы.