Познакомьтесь с AnomalyGPT новым подходом IAD (обнаружение аномалий в промышленности) на основе больших моделей визуального и языкового восприятия (LVLM) для обнаружения промышленных аномалий.

AnomalyGPT - новый подход IAD для обнаружения промышленных аномалий на основе больших моделей LVLM.

На различных задачах обработки естественного языка (NLP), большие языковые модели (LLM) такие как GPT-3.5 и LLaMA продемонстрировали выдающуюся производительность. Возможность LLM интерпретировать визуальную информацию недавно была расширена передовыми методами, такими как MiniGPT-4, BLIP-2 и PandaGPT, путем выравнивания визуальных аспектов с текстовыми особенностями, что привело к огромному сдвигу в области искусственного общего интеллекта (AGI). Возможности LVLM в задачах IAD ограничены, несмотря на то, что они были предварительно обучены на большом количестве данных, полученных из Интернета. Кроме того, их знания в определенной области развиты только в умеренной степени, и им необходима большая чувствительность к локальным особенностям внутри объектов. Задача IAD заключается в поиске и выявлении аномалий на фотографиях промышленных изделий.

Модели должны обучаться только на нормальных выборках для идентификации аномальных выборок, отклоняющихся от нормальных, поскольку реальные примеры необычны и непредсказуемы. Большинство существующих систем IAD предлагают только оценки аномалий для тестовых выборок и требуют ручного определения критериев для отличия нормальных от аномальных экземпляров для каждого класса объектов, что делает их не подходящими для реальных производственных условий. Исследователи из Китайской академии наук, Китайской академии наук, Objecteye Inc. и исследовательского центра Wuhan AI представляют AnomalyGPT, уникальную методологию IAD на основе LVLM, как показано на рисунке 1, поскольку ни существующие методы IAD, ни LVLM не могут адекватно решить проблему IAD. Без необходимости ручной настройки пороговых значений AnomalyGPT может идентифицировать аномалии и их местоположение.

Рисунок 1 показывает сравнение нашего AnomalyGPT с существующими методами IAD и LVLM.

Кроме того, их подход может предоставлять информацию о картинке и способствовать интерактивному взаимодействию, позволяя пользователям задавать дополнительные вопросы в зависимости от их потребностей и ответов. С помощью всего нескольких нормальных образцов AnomalyGPT также может учиться в контексте, что позволяет быстро адаптироваться к новым объектам. Они оптимизируют LVLM с использованием синтезированных аномальных визуально-текстовых данных и включают в него экспертизу IAD. Однако требуется улучшение прямого обучения с использованием данных IAD. Первая проблема – это недостаточность данных. Предварительно обучен на 160 тыс. фотографий с соответствующими многотурнирными разговорами, включая такие методы, как LLaVA и PandaGPT. Однако маленький размер выборок наборов данных IAD, доступных на данный момент, делает прямую настройку подверженной переобучению и катастрофическому забыванию.

Для решения этой проблемы они настраивают LVLM с использованием встраивания запроса, а не настройки параметров. После входа изображений добавляются дополнительные встраивания запроса, добавляющие дополнительную информацию IAD в LVLM. Вторая проблема связана с тонкой семантикой. Они предлагают простой декодер на основе сопоставления визуально-текстовых признаков для получения результатов локализации аномалий на уровне пикселей. Выходы декодера становятся доступными для LVLM и исходных тестовых изображений через встраивания запросов. Это позволяет LVLM использовать как исходное изображение, так и выходы декодера для идентификации аномалий, повышая точность своих суждений. Они проводят комплексные эксперименты на базах данных MVTec-AD и VisA.

Они достигают точности 93,3%, AUC на уровне изображения 97,4% и AUC на уровне пикселя 93,1% при безнаблюдаемом обучении на наборе данных MVTec-AD. Они достигают точности 77,4%, AUC на уровне изображения 87,4% и AUC на уровне пикселя 96,2% при переносе одного снимка на набор данных VisA. С другой стороны, перенос одного снимка на набор данных MVTec-AD после безнаблюдаемого обучения на наборе данных VisA дал точность 86,1%, AUC на уровне изображения 94,1% и AUC на уровне пикселя 95,3%.

Ниже приведено краткое изложение их вклада:

• Они представляют инновационное использование LVLM для обработки служебных обязанностей IAD. Их подход облегчает многораундовые дискуссии, обнаруживает и локализует аномалии без ручной настройки пороговых значений. Их декодер, основанный на сопоставлении легковесных визуальных и текстовых особенностей, решает проблему слабой различимости тонких семантических аспектов LLM. Это устраняет ограничение связанное с ограниченной способностью LLM генерировать текстовые выходные данные. По их информации, они первые успешно применили LVLM в промышленном обнаружении аномалий.

• Чтобы сохранить внутренние возможности LVLM и обеспечить многоразовые разговоры, они одновременно обучают свою модель с использованием данных, используемых во время предварительного обучения LVLM, и используют эмбеддинги подсказок для тонкой настройки.

• Их подход сохраняет высокую переносимость и может выполнять обучение с небольшим количеством примеров на новых наборах данных, что позволяет достигать отличных результатов в контексте.