Визуальный ответ на вопросы с помощью замороженных больших языковых моделей

Визуальный ответ на вопросы с помощью глубокого замороженного моделирования языка

Обсуждение изображений с LLM без обучения LLM на изображениях.

“Преодоление модальностей”, создано с помощью MidJourney. Все изображения автора, если не указано иное.

В этой статье мы будем использовать Q-Former – технику для связи компьютерного зрения и моделей естественного языка, чтобы создать систему вопросов и ответов на основе визуальной информации. Мы рассмотрим необходимую теорию, следуя статье BLIP-2, а затем реализуем систему, с помощью которой можно будет общаться с большой моделью языка на основе изображения.

Кому полезно это? Всем, кто интересуется компьютерным зрением, обработкой естественного языка и мультимодальным моделированием данных.

На сколько сложная эта статья? Концептуально эта статья не вызывает больших сложностей, но построение системы, которая соединяет зрение и язык, обязательно требует понимания ряда концепций. Если у вас нет опыта в компьютерном зрении и обработке естественного языка, возможно, у вас возникнут затруднения.

Предварительные требования: Знакомство с трансформерами, LSTM и общее понимание различных форм встраивания последовательностей. Все эти темы рассматриваются в следующей статье:

Трансформеры – интуитивно и исчерпывающе объясненные

Исследование современной волны машинного обучения: пошаговый разбор трансформера

towardsdatascience.com

Примечание от автора: Во всех своих приводимых примерах я стремлюсь к атомарности. Это означает, что, если вы достаточно хорошо разбираетесь в предыдущих темах, вам не нужно обращаться к другим источникам, чтобы понять статью. Эта статья охватывает множество концепций, и поэтому я почувствовал необходимость включить множество ссылок, чтобы заинтересованные читатели могли изучить их по мере необходимости. Ссылки не являются обязательными и могут отвлечь вас от основного материала. Пожалуйста, не беспокойтесь о них и не теряйтесь в них, они предназначены для удовлетворения любопытства, если оно возникнет.

Краткая хронология визуального языкового моделирования

Моделирование языка на основе визуальной информации началось в 2016 году статьей VQA: Визуальное вопросно-ответное моделирование, где формально была поставлена следующая задача:

Предоставить точный ответ с использованием естественного языка на вопрос, заданный по отношению к изображению — VQA: Визуальное вопросно-ответное моделирование