Q* и LVM эволюция AGI в LLM

Q* и LVM эволюция AGI в мире LLM

Q* для передового рассуждения и LVM для Vision AI: Внедрение новаторских усовершенствований в области AGI, основанной на LLM

Источник: сгенерировано ChatGPT 4 с заголовком статьи

Область искусственного интеллекта претерпела революционный взлет с появлением больших моделей естественного языка (LLM), таких как ChatGPT. Эти модели резко изменили наше взаимодействие с ИИ, предлагая практически человеческие возможности ведения бесед. Однако, несмотря на их успех, у моделей LLM есть существенные пробелы в двух ключевых областях: визионному ИИ и логическому/математическому рассуждению. Эти пробелы решаются двумя новаторскими изобретениями: загадочным проектом Q* от OpenAI и внедрением новых крупногабаритных моделей видения (LVM) от UCB и JHU.

Q*: Преодоление пробела в логическом и математическом рассуждении

Q*, проект, завернутый в тайну, недавно появился в обсуждениях в сообществе искусственного интеллекта. Хотя детали остаются скудными, информация просочилась через различные источники, включая статью Wired и обсуждения на форуме сообщества OpenAI, указывая на то, что Q* является ответом OpenAI на улучшение логического и математического рассуждения в моделях ИИ.

Нужда в Q* вызвана внутренними ограничениями существующих моделей LLM в обработке сложных логических конструкций и математических задач. Хотя модели LLM, такие как ChatGPT, могут имитировать рассуждение в определенной степени, они часто сходят с правильного пути при выполнении задач, требующих глубокого, систематического логического анализа или сложных математических вычислений. Задачей Q* является заполнение этого пробела, возможно, с использованием передовых алгоритмов и новых подходов для наделения ИИ способностью рассуждать и вычислять на уровне, в настоящее время недоступном для существующих моделей.

LVM: Революция в визионном ИИ

Параллельно с развитием Q* происходят прорывы в области визионного ИИ, что отражается в первоначальном внедрении крупногабаритных моделей видения (LVM). Недавняя статья, опубликованная на arxiv.org исследователями из Университета Калифорнии, Беркли (UCB), и Университета Джона Хопкинса (JHU), описывает этот прогресс. LVM представляет собой существенный скачок в области визионного ИИ, решая проблемы масштабируемости и эффективности обучения, которые долгое время были сложными в этой области.

LVM разработаны для обработки и интерпретации визуальных данных в масштабе и сложности, не встречавшихся ранее. Они используют последовательное моделирование, технику, позволяющую более эффективное обучение и лучшую обобщающую способность на больших наборах данных. Этот подход позволяет LVM учиться на огромных объемах визуальных данных, делая их способными к выполнению задач, включая распознавание изображений и сложное понимание сцен.

Архитектура LVM (Источник: статья LVM)

Эта LVM использует новаторский подход последовательного моделирования, позволяющий обучать визуальные данные без использования лингвистической информации. Центральной особенностью этого подхода является понятие “визуальных предложений”, формата, представляющего широкий спектр визуальных данных, включая сырые изображения, видео и аннотированные источники, такие как семантическая сегментация, в виде последовательных токенов. Этот метод позволяет обрабатывать огромное количество визуальных данных (более 420 миллиардов токенов) в виде последовательностей, которые модель осваивает путем минимизации потери перекрестной энтропии при прогнозировании следующего токена.

В основе LVM лежит двухэтапный процесс обработки визуальных данных. Первый этап включает токенизацию изображения с использованием модели VQGAN, которая преобразует каждое изображение в последовательность дискретных визуальных токенов. Фреймворк VQGAN использует комбинацию механизмов кодирования и декодирования, с квантованием, которое присваивает входные изображения дискретным токенам из заранее определенного кодового книги. Второй этап включает обучение авторегрессионной трансформерной модели на этих визуальных предложениях. Эта модель полностью единообразно обрабатывает последовательности визуальных токенов, без необходимости в специфических для задачи токенах, что позволяет системе находить контекстуальные взаимосвязи между изображениями.

Для вывода и применения в различных задачах зрения LVM использует метод, называемый визуальным подсказыванием. Путем создания частичных визуальных предложений, определяющих задачу, модель может генерировать вывод, предсказывая и дополняя последовательность визуальных токенов. Этот подход отражает контекстное обучение в моделях языка, обеспечивая гибкость и адаптивность в генерации визуальных результатов для широкого диапазона приложений.

Путь к AGI

Развитие Q* и LVM является ключевым шагом в пути к искусственному общему интеллекту (AGI). AGI, «священный грааль» исследований в области ИИ, относится к способности машины понимать, учиться и применять интеллект в широком диапазоне задач, подобно человеческому мозгу. В то время как LLM создали прочную основу, интеграция специализированных возможностей, таких как логическое мышление (Q*) и продвинутая обработка изображений (LVM), является необходимой для приближения к AGI.

Эти достижения представляют собой не только пошаговые улучшения, но и сдвиг парадигмы в возможностях ИИ. С Q* улучшающим логическое и математическое мышление и LVM революционизирующим видеоинтеллект, путь к AGI выглядит более многообещающим, чем когда-либо. По мере ожидания дальнейшего развития этих проектов, потенциал ИИ преодолеть текущие границы и стать действительно общим интеллектом находится на горизонте, предвещая новую эру в мире ИИ.

  1. Последовательная моделирование обеспечивает масштабируемое обучение для крупных моделей зрения: https://arxiv.org/abs/2312.00785
  2. UnifiedVisionGPT: оптимизация видеоориентированного ИИ через обобщенную мультимодальную рамку: https://arxiv.org/abs/2311.10125
  3. Физически обоснованные модели зрения-языка для робототехнической манипуляции: https://arxiv.org/abs/2309.02561
  4. Векторное квантование моделирования изображений с улучшенным VQGAN: https://blog.research.google/2022/05/vector-quantized-image-modeling-with.html
  5. Обзор крупных моделей языка: https://arxiv.org/abs/2303.18223