Исследователи из Китая представляют CogVLM мощную открытую модель основы визуального языка
Китайские исследователи представляют CogVLM - мощную и открытую модель для визуального языка
Модели визуального языка являются сильными и гибкими. Затем предсказание токенов может использоваться для создания различных задач визии и кросс-модальности, таких как описание картинок, визуальные ответы на вопросы, визуальное определение и даже сегментация. Поскольку масштаб моделей визуального языка увеличивается, появляются полезные навыки, такие как контекстное обучение, а также улучшение нижестоящих активностей. Более сложно обучить VLM с самого начала с той же производительностью NLP, что и хорошо обученные чистые языковые модели, такие как LLaMA2, так как введение большой языковой модели уже само по себе сложная задача. Следовательно, имеет смысл рассмотреть процесс обучения VLM с использованием готовой предварительно обученной языковой модели.
Широко используемые поверхностные методы выравнивания, представленные BLIP-2, передают характеристики изображения в пространство входных вложений языковой модели с помощью обучаемого Q-Former или линейного слоя, который соединяет замороженный предварительно обученный визуальный энкодер и языковую модель. Хотя этот подход быстро сходится, он не работает так хорошо, как одновременное обучение языковых и визуальных модулей, например, PaLI-X. Когда речь идет о чат-стилевых VLM, которые были обучены с использованием поверхностных методов выравнивания, таких как MiniGPT-4, LLAVA и VisualGLM, слабые навыки визуального понимания проявляются как галлюцинации. Является ли возможным улучшение навыков визуального понимания крупной языковой модели без потери ее способностей к обработке естественного языка (NLP)?
Ответ на этот вопрос – “да”. Исследователи из Zhipu AI и Университета Цинхуа представили CogVLM. Эта мощная модель открытого исходного кода визуального языка считает, что недостаток глубокой интеграции между языком и визуальной информацией является основной причиной недостаточной производительности поверхностных методов выравнивания. Эта идея пришла из сравнения двух подходов к эффективному дообучению: p-tuning обучает префиксное вложение задачи входных данных. LoRA использует матрицу с низким рангом для коррекции весов модели на каждом слое. LoRA функционирует более эффективно и надежно. Поскольку характеристики изображения в поверхностных методах выравнивания ведут себя аналогично префиксному вложению в p-tuning, аналогичное явление может произойти и с VLM.
- Ученые из MIT и NVIDIA разработали две дополняющие техники, которые могут значительно увеличить скорость и производительность сложных задач машинного обучения.
- Исследователи Google DeepMind предлагают рамки для классификации возможностей и поведения моделей их предшественников искусственного общего интеллекта (AGI)
- Исследователи из Кембриджа разработали приложение виртуальной реальности с использованием машинного обучения, позволяющее пользователям обладать ‘сверхчеловеческим’ умением открывать и управлять инструментами в виртуальной реальности.
Вот более конкретные причины снижения производительности p-настройки и поверхностных методов выравнивания:
1. Текстовые токены обучают замороженные веса языковой модели. Область ввода текста полностью соответствует визуальным характеристикам. Визуальные характеристики могут, следовательно, больше не соответствовать распределению входных весов в глубинных слоях после многослойных модификаций.
2. Стиль письма и длина подписи задания на описание картинок, например, могут быть закодированы только в визуальных характеристиках поверхностных методов выравнивания во время предварительного обучения. Согласованность между визуальными элементами и содержимым может быть сильнее. Одним из потенциальных способов является адаптация языковой модели к комбинированному обучению изображений и текста, как это делают Qwen-VL и PaLI.
Однако это неоправданно вредит NLP, что может повлиять на деятельность, ориентированную на текст, такую как создание поэзии на основе изображений или предоставление контекста для изображений. Обучение языковой модели во время предварительного обучения VLM, согласно PaLM-E, приведет к катастрофическому забыванию и потере 87,3% производительности NLG для языковой модели 8B. Вместо этого CogVLM усиливает языковую модель с обучаемым визуальным экспертом. Каждый слой использует отдельные матрицу QKV для визуальных характеристик в последовательности и слой MLP для текстовых характеристик. Визуальный эксперт сохраняет те же FLOPs, но увеличивает количество параметров. Если во входной последовательности отсутствует изображение, поведение будет таким же, как в исходной языковой модели, так как все параметры фиксированы.
На 14 типичных кросс-модальных испытаниях, таких как: 1) наборы данных для описания изображений (NoCaps, Flicker30k, COCO), 2) наборы данных для вопросов и ответов на изображениях (VQAv2, OKVQA, GQA, TextVQA, VizWiz), а также 3) наборы данных для описания изображений (SecondBest), их CogVLM-17B, обученная на Vicuna-7B, достигает наилучшей производительности или второй наилучшей. 3) наборы данных с множественным выбором (TDIUC, ScienceQA); 4) наборы данных для визуальной находки (RefCOCO, RefCOCO+, RefCOCOg, Visual7W). В этом исследовании не участвует CogVLM-28B-zh, который они обучили на основе ChatGLM-12B для поддержки китайского и английского языков в коммерческих целях. Поскольку большинство наиболее известных VLM в прошлом, таких как Flamingo, SimVLM, Coca, BEIT-3, GIT2, PaLI и PaLI-X, являются закрытыми исходными кодами, ожидается, что открытость CogVLM окажет значительное положительное влияние на исследования в области визуального понимания и промышленное применение.
->