Alibaba представляет две открытые модели обработки больших объемов данных на основе зрительного языка (LVLM) Qwen-VL и Qwen-VL-Chat

Alibaba представляет две модели обработки данных на основе зрительного языка (LVLM) Qwen-VL и Qwen-VL-Chat

В постоянно развивающейся области искусственного интеллекта непреходящей проблемой остается преодоление разрыва между пониманием изображений и взаимодействием с текстом. Эта загадка заставила многих искать инновационные решения. В то время как сообщество искусственного интеллекта наблюдает впечатляющие достижения последних лет, все еще остается актуальной необходимость в универсальных моделях с открытым исходным кодом, способных понимать изображения и отвечать на сложные запросы смелостью.

Существующие решения, действительно, прокладывают путь к прогрессу в области искусственного интеллекта, но часто не обеспечивают плавного сочетания понимания изображений и взаимодействия с текстом. Эти ограничения побудили искать более сложные модели, которые могут справиться со множеством требований по обработке изображений и текста.

Alibaba представляет две модели с открытым исходным кодом для обработки изображений и текста (LVLM) – Qwen-VL и Qwen-VL-Chat. Эти инструменты искусственного интеллекта стали многообещающими ответами на вызов понимания изображений и решения сложных запросов.

Qwen-VL, первая из этих моделей, разработана как усовершенствованная версия 7-миллиардной параметрической модели Alibaba, Tongyi Qianwen. Она обладает исключительной способностью обрабатывать изображения и текстовые запросы плавно, превосходя в таких задачах, как создание увлекательных подписей к изображениям и ответы на открытые запросы, связанные с разнообразными изображениями.

Qwen-VL-Chat, с другой стороны, углубляется в концепцию, решая более сложные взаимодействия. Опираясь на передовые техники выравнивания, эта модель искусственного интеллекта демонстрирует замечательный набор талантов, от сочинения стихов и повествований на основе входных изображений до решения сложных математических вопросов, внедренных в изображения. Она переосмысливает возможности взаимодействия текста и изображения как на английском, так и на китайском языках.

Впечатляющие показатели этих моделей подчеркивают их возможности. Например, Qwen-VL показала способность обрабатывать большие изображения (разрешение 448×448) во время обучения, превосходя аналогичные модели, ограниченные меньшими изображениями (разрешение 224×224). Она также продемонстрировала мастерство в задачах, связанных с изображениями и языком, описывая фотографии без предварительной информации, отвечая на вопросы о фотографиях и обнаруживая объекты на изображениях.

Qwen-VL-Chat, с другой стороны, превзошла другие инструменты искусственного интеллекта в понимании и обсуждении взаимосвязи между словами и изображениями, что продемонстрировано в тестовом наборе Alibaba Cloud. С более чем 300 фотографиями, 800 вопросами и 27 различными категориями, она проявила свое превосходство в разговорах о картинках как на китайском, так и на английском языках.

Возможностью этого развития является обязательство Alibaba к открытым технологиям. Компания намерена предоставить эти две модели искусственного интеллекта в качестве решений с открытым исходным кодом для глобального сообщества, сделав их бесплатно доступными по всему миру. Этот шаг дает возможность разработчикам и исследователям использовать передовые возможности для приложений искусственного интеллекта без необходимости обширного обучения системы, что в конечном итоге снижает расходы и демократизирует доступ к передовым инструментам искусственного интеллекта.

В заключение, представление Alibaba о Qwen-VL и Qwen-VL-Chat представляет собой значительный прогресс в области искусственного интеллекта, решая давнюю проблему плавного интегрирования понимания изображений и взаимодействия с текстом. Эти модели с открытым исходным кодом, с их впечатляющими возможностями, имеют потенциал изменить ландшафт приложений искусственного интеллекта, способствуя инновациям и доступности по всему миру. В то время как сообщество искусственного интеллекта с нетерпением ждет выпуска этих моделей, будущее обработки изображений и текста, основанной на искусственном интеллекте, выглядит многообещающим и полным возможностей.