Исследователи Университета Калифорнии в Беркли создают ALIA прорыв в автоматизированном увеличении изображений с помощью языка для задач точной классификации

Исследователи Университета Калифорнии в Беркли впечатляют своим прорывом в автоматизированном увеличении изображений с помощью языка для точной классификации

Классификация изображений с мелкой детализацией – это задача компьютерного зрения, направленная на классификацию изображений по подкатегориям в рамках более общей категории. Она включает сложную идентификацию конкретных, часто редких животных. Однако у них возникает потребность в более обширных обучающих данных, из-за чего классификаторы испытывают трудности с адаптацией к разным аспектам предметной области, таким как изменение погодных условий или географических местоположений.

Увеличение данных, общий метод для диверсификации обучающих данных, сталкивается с проблемами в специализированных задачах, таких как классификация с мелкой детализацией. Подходы, использующие генеративные модели или традиционные методы, такие как переворачивание или обрезка, показывают некоторые перспективы, но часто требуют обширной настройки или генерируют не подходящие изображения для таких задач.

Несмотря на различные предлагаемые методы, направленные на преодоление этих препятствий, в этой области по-прежнему есть сложности в создании расширенных наборов данных, которые бы представляли разнообразные изменения, сохраняя при этом визуальную согласованность и соответствие первоначальным обучающим данным.

Новый подход ALIA (Automated Language-guided Image Augmentation) появился для преодоления этих постоянных трудностей. ALIA использует естественноязыковые описания предметных областей наборов данных совместно с большими моделями компьютерного зрения, чтобы автоматически генерировать разнообразные изменения обучающих данных с помощью редактирования изображений, управляемых языком. В отличие от предыдущих методов, ALIA не требует дорогостоящей настройки или предоставления пользовалельской информации. Вместо этого он умно отфильтровывает минимальные правки и те, которые могут испортить класс-зависимую информацию, предлагая многообещающее решение, которое улучшает разнообразие набора данных и повышает обобщающие способности классификаторов в специализированных задачах, таких как классификация с мелкой детализацией.

Процесс включает в себя:

  1. Генерация описаний предметных областей: Использование описания изображений и больших языковых моделей для краткого описания контекста изображений в нескольких предметных областях.
  2. Редактирование изображений с помощью языкового руководства: Применение техник редактирования изображений с использованием текста, чтобы создать разнообразные изображения, соответствующие этим описаниям.
  3. Фильтрация неудачных правок: Использование CLIP для семантической фильтрации и классификатора для фильтрации на основе уверенности, для удаления неудачных правок, обеспечивая сохранение оперативно-зависимой информации и визуальную согласованность.

По словам авторов, этот метод позволяет увеличить объем набора данных на 20-100%, при этом сохраняя визуальную согласованность и включая более широкий спектр предметных областей.

Исследовательская группа провела обширные эксперименты для оценки эффективности метода аугментации данных ALIA в специализированных задачах: обобщение предметной области, классификация с мелкой детализацией и контекстуальный смещение в классификации птиц. Путем настройки модели ResNet50 и использования метода Stable Diffusion для редактирования изображений, ALIA постоянно превосходил традиционные методы аугментации данных и даже добавление реальных данных в задачах обобщения предметной области, демонстрируя улучшение на 17% по сравнению с исходными данными. В классификации с мелкой детализацией ALIA показал конкурентоспособную производительность, поддерживая точность даже без смены предметной области. ALIA превосходил другие методы в точности внутри и вне предметной области для функций, связанных с контекстуальным смещением, однако сталкивался с проблемами качества редактирования изображений и только текстовыми модификациями. Эти эксперименты подчеркивают потенциал ALIA в повышении разнообразия набора данных и производительности модели, хотя некоторая зависимость от качества модели и выбора методов редактирования изображений также присутствует.

В заключение авторы представили ALIA – новаторскую стратегию аугментации данных, которая основывается на обширных знаниях предметных областей больших языковых моделей и методах редактирования изображений с помощью текста. Для описаний предметных областей и расширенных данных в предоставленном наборе обучающих данных этот метод показал замечательные возможности в сложных сценариях, таких как адаптация предметной области, снижение смещения и даже в сценариях без смены предметной области.

В будущих исследованиях авторы считают, что дальнейшее развитие описания по тексту, больших языковых моделей и редактирования изображений значительно увеличит эффективность и применимость этого подхода. Использование структурированных ключевых слов, полученных из реальных обучающих данных, может сыграть важную роль в повышении разнообразия набора данных и решении различных ограничений, с которыми сталкиваются текущие методологии. Это указывает на перспективные направления исследования для изучения более широких последствий и потенциальных улучшений ALIA.