AnomalyGPT Обнаружение промышленных аномалий с использованием LVLM
Обнаружение промышленных аномалий с AnomalyGPT и LVLM
Недавно, большие модели языка для компьютерного зрения (LVLM), такие как LLava и MiniGPT-4, продемонстрировали способность понимать изображения и достигать высокой точности и эффективности в нескольких визуальных задачах. Хотя LVLM отлично распознают общие объекты благодаря обширным тренировочным наборам данных, они не обладают специфическими знаниями в области и ограничены в понимании локализованных деталей внутри изображений. Это ограничивает их эффективность в задачах промышленного обнаружения аномалий (IAD). С другой стороны, существующие фреймворки IAD могут только определять источники аномалий и требуют ручной настройки пороговых значений для различения нормальных и аномальных образцов, что ограничивает их практическую реализацию.
Основная цель фреймворка IAD – обнаружение и локализация аномалий в промышленных сценариях и изображениях продуктов. Однако, из-за непредсказуемости и редкости образцов из реального мира, модели обычно обучаются только на нормальных данных. Они отличают аномальные образцы от нормальных на основе отклонений от типичных образцов. В настоящее время фреймворки и модели IAD в основном предоставляют оценки аномалий для тестовых образцов. Более того, для различения нормальных и аномальных экземпляров для каждого класса предметов требуется ручная спецификация пороговых значений, что делает их непригодными для реальных приложений.
Чтобы исследовать использование и реализацию больших моделей языка для компьютерного зрения в решении задач, возникающих в фреймворках IAD, был представлен новый подход к IAD, основанный на LVLM, названный AnomalyGPT. AnomalyGPT может обнаруживать и локализовывать аномалии без необходимости ручной настройки пороговых значений. Кроме того, AnomalyGPT также может предоставлять соответствующую информацию об изображении для интерактивного взаимодействия с пользователями, позволяя им задавать дополнительные вопросы на основе аномалий или их специфических потребностей.
- MLCommons представил новый бенчмарк-тест скорости для запуска моделей искусственного интеллекта.
- LLMOps Шаблоны инженерии производственных задач с Hamilton
- Вот первые спикеры осеннего бизнес-саммита AiX
Обнаружение промышленных аномалий и модели языка для компьютерного зрения
Существующие фреймворки IAD можно разделить на две категории.
- Фреймворки IAD на основе реконструкции.
- Фреймворки IAD на основе встраивания признаков.
В фреймворках IAD на основе реконструкции основная цель – восстановить аномальные образцы до соответствующих нормальных образцов и обнаруживать аномалии путем вычисления ошибки реконструкции. SCADN, RIAD, AnoDDPM и InTra используют различные фреймворки реконструкции, начиная от генеративно-состязательных сетей (GAN) и автоэнкодеров до моделей диффузии и трансформеров.
С другой стороны, в фреймворках IAD на основе встраивания признаков основное внимание уделяется моделированию встраивания признаков нормальных данных. Методы, такие как PatchSSVD, пытаются найти гиперсферу, которая плотно охватывает нормальные образцы, тогда как фреймворки, такие как PyramidFlow и Cfl, проецируют нормальные образцы на гауссово распределение с использованием нормализующих потоков. Фреймворки CFA и PatchCore создали банк памяти нормальных образцов из встраивания патчей и используют расстояние между встраиванием тестового образца и нормальным встраиванием для обнаружения аномалий.
Оба этих метода следуют принципу “один класс, одна модель”, обучающей парадигме, требующей большого количества нормальных образцов для изучения распределений каждого класса объектов. Требование большого количества нормальных образцов делает их непрактичными для новых категорий объектов и ограниченными в применении в динамических средах производства. С другой стороны, фреймворк AnomalyGPT использует парадигму контекстного обучения для категорий объектов, позволяя вмешиваться только с небольшим количеством нормальных образцов.
Перейдем к моделям языка для компьютерного зрения или LVLM. Модели языка или Large Language Models (LLM) имеют огромный успех в индустрии обработки естественного языка и теперь исследуются с целью применения их визуальных задач. Фреймворк BLIP-2 использует Q-former для ввода визуальных признаков от Vision Transformer в модель Flan-T5. Кроме того, фреймворк MiniGPT соединяет сегмент изображения фреймворка BLIP-2 и модель Vicuna с помощью линейного слоя и выполняет двухэтапный процесс дообучения с использованием данных изображений и текста. Эти подходы указывают на то, что фреймворки LLM могут иметь некоторые применения для визуальных задач. Однако эти модели были обучены на общих данных и не обладают необходимой областной экспертизой для широкого применения.
Как работает AnomalyGPT?
AnomalyGPT в своей основе – это новая разговорная модель компьютерного зрения для обнаружения промышленных аномалий и точного определения их местоположения с использованием изображений. Фреймворк AnomalyGPT использует LLM и предобученный кодировщик изображений для сопоставления изображений с соответствующими текстовыми описаниями с использованием стимулированных аномальных данных. Модель включает модуль декодера и модуль обучения запросов для улучшения производительности систем IAD и достижения пиксельного уровня локализации вывода.
Архитектура модели
На приведенном выше изображении изображена архитектура AnomalyGPT. Сначала модель передает запросное изображение в замороженный кодировщик изображений. Затем модель извлекает признаки на уровне патчей из промежуточных слоев и подает эти признаки на декодер изображений, чтобы вычислить их сходство с аномальными и нормальными текстами и получить результаты локализации. Затем обучающая модель преобразует их во вложения запросов, которые можно использовать в качестве входных данных в LLM вместе с текстовыми входами пользователя. Модель LLM затем использует вложения запросов, входы изображений и текстовые входы, предоставленные пользователем, для обнаружения аномалий, точного определения их местоположения и создания конечных ответов для пользователя.
Декодер
Для достижения локализации аномалий на уровне пикселей модель AnomalyGPT использует декодер изображений на основе сопоставления признаков, который поддерживает как фреймворки с малым количеством обучающих данных, так и фреймворки без учителя. Дизайн декодера, используемого в AnomalyGPT, вдохновлен фреймворками WinCLIP, PatchCore и APRIL-GAN. Модель разбивает кодировщик изображений на 4 стадии и извлекает промежуточные признаки на уровне патчей на каждой стадии.
Однако эти промежуточные признаки не прошли финальное выравнивание изображений и текста, поэтому их нельзя сравнивать непосредственно с признаками. Чтобы решить эту проблему, модель AnomalyGPT вводит дополнительные слои для проекции промежуточных признаков и выравнивания их с текстовыми признаками, которые представляют нормальную и аномальную семантику.
Обучение запросов
Фреймворк AnomalyGPT вводит обучающую модель запросов, которая пытается преобразовать результат локализации во вложения запросов, чтобы использовать детализированную семантику изображений и также поддерживать семантическую согласованность между выходами декодера и LLM. Кроме того, модель включает обучаемые вложения запросов, не связанные с выходами декодера, в модель запросов для предоставления дополнительной информации для задачи IAD. Наконец, модель передает вложения и исходную информацию об изображении в LLM.
Модель обучения запросов состоит из обучаемых базовых вложений запросов и сверточной нейронной сети. Сеть преобразует результат локализации во вложения запросов и формирует набор вложений запросов, которые затем объединяются с вложениями изображений в LLM.
Симуляция аномалий
Модель AnomalyGPT применяет метод NSA для симуляции аномальных данных. Метод NSA использует технику вырезания и вставки с использованием метода редактирования изображений по методу Пуассона для устранения разрывов, вызванных вставкой сегментов изображений. Вырезание и вставка – это распространенная техника в фреймворках IAD для генерации симулированных аномальных изображений.
Метод вырезания и вставки включает вырезание блока изображения случайным образом и вставку его в случайное место на другом изображении, тем самым создавая часть симулированной аномалии. Эти симулированные образцы аномалий могут повысить производительность моделей IAD, но они имеют недостаток, так как часто могут вызывать заметные разрывы. Метод Пуассона направлен на безшовное клонирование объекта с одного изображения на другое путем решения уравнений Пуассона.
На приведенном выше изображении показано сравнение методов редактирования изображений Пуассона и вырезания и вставки. Как видно, в методе вырезания и вставки присутствуют заметные разрывы, в то время как результаты от метода Пуассона выглядят более естественно.
Вопросы и ответы
Для настройки запросов на большую модель языка зрения AnomalyGPT модель генерирует соответствующий текстовый запрос на основе аномального изображения. Каждый запрос состоит из двух основных компонентов. Первая часть запроса состоит из описания входного изображения, которое предоставляет информацию о присутствующих объектах на изображении с указанием их ожидаемых характеристик. Вторая часть запроса заключается в обнаружении наличия аномалий в объекте или проверке наличия аномалии на изображении.
Модель LVLM сначала отвечает на вопрос о наличии аномалии на изображении. Если модель обнаруживает аномалии, она продолжает указывать местоположение и количество аномальных областей. Модель делит изображение на сетку 3×3 отдельных регионов, чтобы LVLM мог устно указать положение аномалий, как показано на рисунке ниже.
Модель LVLM получает описательные знания о входных данных с фундаментальными знаниями об изображении, что помогает модели лучше понять составные части изображения.
Наборы данных и показатели оценки
Модель проводит свои эксперименты в основном на наборах данных VisA и MVTec-AD. Набор данных MVTech-AD состоит из 3629 изображений для обучения и 1725 изображений для тестирования, разделенных на 15 различных категорий, поэтому он является одним из самых популярных наборов данных для фреймворков IAD. Обучающие изображения содержат только нормальные изображения, тогда как тестовые изображения содержат как нормальные, так и аномальные изображения. С другой стороны, набор данных VisA состоит из 9621 нормальных изображений и около 1200 аномальных изображений, разделенных на 12 различных категорий.
Далее, подобно существующему фреймворку IAD, модель AnomalyGPT использует AUC или площадь под ROC-кривой в качестве показателя оценки, с использованием AUC на уровне пикселей и на уровне изображений для оценки производительности локализации аномалий и обнаружения аномалий соответственно. Однако модель также использует точность на уровне изображений для оценки производительности своего предложенного подхода, поскольку она позволяет определить наличие аномалий без необходимости ручной настройки порогов.
Результаты
Количественные результаты
Обнаружение аномалий в промышленности с небольшим количеством образцов
Модель AnomalyGPT сравнивает свои результаты с предыдущими фреймворками IAD с небольшим количеством образцов, включая PaDiM, SPADE, WinCLIP и PatchCore в качестве базовых моделей.
Выше приведено сравнение результатов модели AnomalyGPT с другими фреймворками IAD с небольшим количеством образцов. На обоих наборах данных метод, применяемый AnomalyGPT, превосходит подходы, применяемые предыдущими моделями, по показателю AUC на уровне изображений и также обеспечивает хорошую точность.
Обнаружение аномалий в промышленности без учителя
В условиях обучения без учителя с большим количеством нормальных образцов AnomalyGPT обучает одну модель на образцах, полученных из всех классов в наборе данных. Разработчики AnomalyGPT выбрали фреймворк UniAD, потому что он обучается в тех же условиях и будет служить базовым уровнем для сравнения. Кроме того, модель также сравнивается с фреймворками JNLD и PaDim, используя ту же унифицированную настройку.
Выше приведено сравнение производительности модели AnomalyGPT по сравнению с другими фреймворками.
Качественные результаты
Выше приведено изображение, иллюстрирующее производительность модели AnomalyGPT в методе обнаружения аномалий без учителя, тогда как ниже приведена демонстрация производительности модели в методе одного образца в контексте обучения.
Модель AnomalyGPT способна указывать на наличие аномалий, обозначать их местоположение и предоставлять результаты локализации на уровне пикселей. При использовании метода одного образца в контексте обучения производительность модели немного ниже по сравнению с методом обучения без учителя из-за отсутствия обучения.
Заключение
AnomalyGPT – это новая разговорная модель IAD-видение, разработанная для использования мощных возможностей крупных моделей видение-язык. Она может не только идентифицировать аномалии на изображении, но и указывать их точное местоположение. Кроме того, AnomalyGPT облегчает многоходовые диалоги, сосредоточенные на обнаружении аномалий, и продемонстрировала выдающуюся производительность при обучении с небольшим количеством образцов в контексте. AnomalyGPT исследует потенциальные применения LVLM в обнаружении аномалий, представляя новые идеи и возможности для отрасли IAD.