Теперь вы видите меня (CME) Извлечение модели на основе концепции
CME - Извлечение модели
Эффективный подход к моделям на основе концепции
Из доклада на AIMLAI, представленного на конференции CIKM: «Теперь вы видите меня (CME): извлечение модели на основе концепции» (GitHub)
Краткое изложение
Проблема — Модели глубоких нейронных сетей являются черными ящиками, которые нельзя интерпретировать напрямую. В результате сложно доверять таким моделям. Существующие методы, такие как модели с узким горлышком концепции, делают такие модели более интерпретируемыми, но требуют высоких затрат на аннотацию подлежащих концепций.
Основное нововведение — Метод генерации моделей на основе концепции в слабоуправляемом режиме, требующий значительно меньшего количества аннотаций.
Решение — Наша рамка извлечения моделей на основе концепции (CME), способная извлекать модели на основе концепции из предварительно обученных ванильных сверточных нейронных сетей (CNN) в полууправляемом режиме, сохраняя при этом производительность конечной задачи.
- Лучшие альтернативы GitHub для проектов машинного обучения
- Используйте глубокое обучение для создания имён фантастических персонажей создание языковой модели с нуля
- Выберите свое оружие стратегии выживания для депрессивных ИИ-консультантов
Модели с узким горлышком концепции (CBMs)
В последние годы в области объяснимого искусственного интеллекта (XAI) [1] наблюдается растущий интерес к подходам моделей с узким горлышком концепции (CBM) [2]. Эти методы представляют инновационную архитектуру модели, в которой входные изображения обрабатываются в две отдельные фазы: кодирование концепции и обработка концепции.
Во время кодирования концепции извлекается информация о концепции из высокоразмерных входных данных. Затем в фазе обработки концепции эта извлеченная информация о концепции используется для генерации требуемой метки задачи вывода. Особенностью CBM является их зависимость от семантически значимого представления концепции, служащего промежуточным интерпретируемым представлением для предсказаний последующих задач, как показано ниже:
Как показано выше, модели CBM обучаются с помощью комбинации потерь задачи для обеспечения точного предсказания метки задачи, а также потерь концепции, обеспечивающих точное предсказание промежуточной концепции. Важно отметить, что CBM повышают прозрачность модели, поскольку основное представление концепции позволяет объяснить и лучше понять поведение модели.
Модели с узким горлышком концепции предлагают новый тип интерпретируемых моделей CNN, позволяющих пользователям кодировать существующие знания области в модели через концепции.
В целом, модели CBM являются важным инновационным шагом, приближающим нас к более прозрачным и надежным моделям.
Проблема: CBM имеют высокую стоимость аннотации концепции
К сожалению, CBM требуют большого количества аннотаций концепции в процессе обучения.
В настоящее время подходы CBM требуют явной аннотации всех обучающих образцов как с метками задачи, так и с метками концепции. Таким образом, для набора данных с N образцами и C концепциями стоимость аннотации возрастает с N аннотаций (одна метка задачи на образец) до N*(C+1) аннотаций (одна метка задачи на образец и одна метка концепции для каждой концепции). На практике это может быстро стать неудобным, особенно для наборов данных с большим количеством концепций и обучающих образцов.
Например, для набора данных из 10 000 изображений с 50 концепциями стоимость аннотации увеличится на 50*10 000 = 500 000 меток, то есть на полмиллиона дополнительных аннотаций.
К сожалению, модели с узким местом концепции требуют значительного количества аннотаций для обучения.
Использование полу-наблюдаемых концептуальных моделей с CME
CME полагается на аналогичное наблюдение, подчеркнутое в [3], где было отмечено, что классические модели CNN часто сохраняют большое количество информации, относящейся к концепциям, в своем скрытом пространстве, которое может использоваться для добычи концептуальной информации без дополнительной стоимости аннотации. Важно отметить, что в данной работе рассматривается сценарий, в котором основные концепции неизвестны и должны быть извлечены из скрытого пространства модели в неуправляемом режиме.
С помощью CME мы используем вышеупомянутое наблюдение и рассматриваем сценарий, в котором у нас есть знание о базовых концепциях, но у нас есть только небольшое количество образцовых аннотаций для каждой из этих концепций. Подобно [3], CME полагается на предварительно обученную классическую модель CNN и небольшое количество концептуальных аннотаций для извлечения дополнительных концептуальных аннотаций полусамостоятельным способом, как показано ниже:
Как показано выше, CME извлекает представление концепции с использованием скрытого пространства предварительно обученной модели в постобработке. Далее приводятся дополнительные подробности.
Обучение кодировщика концепций: вместо обучения кодировщиков концепций с нуля на исходных данных, как это делается в случае CBM, мы настраиваем обучение модели кодировщика концепций в полусамостоятельном режиме, используя скрытое пространство классической модели CNN:
- Мы начинаем с предварительной спецификации набора слоев L из классической модели CNN для использования при извлечении концепций. Это может варьироваться от всех слоев до только нескольких последних, в зависимости от доступных вычислительных мощностей.
- Затем для каждой концепции мы обучаем отдельную модель на основе скрытого пространства каждого слоя в L для прогнозирования значений этой концепции из скрытого пространства слоя.
- Продолжаем выбирать модель и соответствующий слой с наилучшей точностью модели в качестве “лучшей” модели и слоя для прогнозирования этой концепции.
- Следовательно, при прогнозировании концепции i мы сначала получаем представление скрытого пространства для лучшего слоя для этой концепции, а затем передаем его через соответствующую прогностическую модель для вывода.
В целом, функцию кодировщика концепций можно свести к следующему (предполагая, что всего k концепций):
- Здесь p-hat на левой части представляет функцию кодировщика концепций
- Термины gᵢ представляют модели из скрытого пространства в концепцию, обученные на основе скрытого пространства разных слоев, где i представляет индекс концепции, варьирующийся от 1 до k. На практике эти модели могут быть довольно простыми, такими как Линейные регрессоры или Градиентные классификаторы.
- Термины f(x) представляют субмодели исходной классической модели CNN, извлекающие скрытое представление ввода на определенном слое
- В обоих вышеуказанных случаях верхние индексы lʲ указывают “лучшие” слои, на которых работают эти две модели
Обучение процессора концепций: обучение моделей процессора концепций в CME осуществляется путем обучения моделей с использованием меток задач в качестве выходов и прогнозов кодировщика концепций в качестве входов. Важно отметить, что эти модели работают с намного более компактным представлением ввода и могут быть представлены непосредственно с помощью интерпретируемых моделей, таких как Деревья решений (DT) или Логистическая регрессия (LR).
Эксперименты и результаты CME
Наши эксперименты как на синтетических (dSprites и shapes3d), так и на сложных реальных наборах данных (CUB) показали, что модели CME:
- Достигайте высокой точности предсказания, сравнимой с CBM во многих случаях, даже на концепциях, не имеющих отношения к конечной задаче:
- Позволяйте вмешательство человека в концепции – то есть позволяет людям быстро улучшать производительность модели, исправляя небольшие наборы выбранных концепций:
- Объясняйте принятие решений модели в терминах концепций, позволяя практикам непосредственно визуализировать модели концепций:
- Помогайте понять обработку моделью концепций путем анализа скрытого пространства основных концепций на разных слоях модели:
Определяя модели на основе концепций в слабо-надзорной области с помощью CME, мы можем разрабатывать значительно более эффективные модели на основе концепций с меньшим количеством ярлыков
Выводы
Используя предварительно обученные обычные глубокие нейронные сети, мы можем получить аннотации концепций и модели на основе концепций с намного более низкой стоимостью аннотации по сравнению с обычными подходами CBM.
Более того, это не применяется только к концепциям, тесно связанным с конечной задачей, но в некоторых случаях также применяется к концепциям, независимым от конечной задачи.
Ссылки
[1] Крис Молнар. Интерпретируемое машинное обучение. https://christophm.github.io/interpretable-ml-book/
[2] Панг Вей Ко, Тао Нгуен, Ю Сианг Танг, Стивен Муссманн, Эмма Пирсон, Бин Ким и Перси Лианг. Модели с узким местом концепции. В Международной конференции по машинному обучению, страницы 5338–5348. PMLR (2020).
[3] Амират Горбани, Джеймс Векслер, Джеймс Зоу и Бин Ким. К автоматическим объяснениям на основе концепции. В Advances in neural information processing systems, 32.