Как поддерживать актуальность моделей основы с помощью последних данных? Исследователи из Apple и CMU представляют первый большомасштабный временной показатель бенчмарка (TiC) с 12,7 миллиардами пар временной метки изображений-текста для непрерывного

Модные тренды как быть в курсе с использованием последних данных? Исследователи из Apple и CMU представляют первый масштабный временной показатель бенчмарка (TiC) с 12,7 миллиардами пар временной метки изображений-текста для постоянной актуальности

Парадигмальное изменение в мультимодальном обучении произошло благодаря вкладу крупных мультимодальных базовых моделей, таких как CLIP, Flamingo и Stable Diffusion, что позволило достичь ранее невообразимых улучшений в области генерации изображений и нулевой генерализации. Эти базовые модели обычно обучаются на больших статических наборах данных масштаба Интернета. Неизвестно, будут ли существующие модели, такие как CLIP модели OpenAI, обученные на данных масштаба Интернета до 2020 года, работать с будущими данными.

Для начала исследователи из Apple и Карнеги-Меллонского университета изучают, как модели CLIP OpenAI сравниваются с моделями из репозитория OpenCLIP, которые были разработаны с использованием более актуальных подготовленных веб-наборов данных, включающих данные до 2022 года, в терминах их надежности. В связи с отсутствием стандарта, по которому можно измерить модели CLIP, они составили набор задач классификации и поиска, охватывающих период с 2014 по 2022 год. В то время как модели OpenCLIP сохраняют свою производительность, команда обнаружила, что модели OpenAI показывают значительные различия в производительности поиска на данных за 2021-2022 годы по сравнению с 2014-2016 годами. Хотя модели CLIP OpenAI немного устойчивее моделей OpenCLIP, это не полностью отражено в типичных тестах, таких как точность на сдвигах распределения ImageNet.

Их работа показывает, что использование статических бенчмарков (например, ImageNet) имеет свои ограничения и модели должны адаптироваться и эволюционировать совместно с изменяющимися распределениями данных. Один из простых, но часто используемых методов для адаптации к изменяющимся данным – начать снова, когда получены новые наборы изображений и текста и обучить новую модель CLIP. Причина в том, что сложнее адаптировать поведение модели к новым данным, если обучение начинается с уже существующей модели. Однако повторное инвестирование времени и энергии, необходимых для обучения новых базовых моделей, с самого начала, не разумно.

Недавние усилия, сосредоточенные на техниках постоянного обучения для моделей CLIP, в основном стремятся повысить эффективность в отношении одной задачи или небольшого числа задач. Хотя некоторые недавние исследования уже начали заниматься этими вопросами, текущие бенчмарки либо недостаточно всесторонни, либо не содержат связанных данных об изображении и тексте, чтобы быть по-настоящему полезными.

В качестве первого шага к непрерывному обучению (TIC) моделей CLIP исследователи наблюдают естественное изменение распределения данных со временем. Добавляя в уже существующий набор данных CommonPool “crawl time” данные, они создают TIC-DataComp в качестве нового бенчмарка для непрерывного обучения моделей CLIP. Исследователи также повторно используют крупномасштабные наборы данных с Интернета, собранные из мест, таких как Reddit и Flickr, для новых целей. В частности, они используют предоставляемую временную информацию от YFCC и Redcaps, чтобы подготовить TIC-YFCC и TICRedCaps соответственно. Эта работа нацелена на разработку техник непрерывного обучения, которые могут функционировать в рамках ограниченного вычислительного бюджета. Эти стратегии противоречат подходу Oracle, который сбрасывает свои параметры обучения при получении новых данных и использует свой накопленный вычислительный бюджет для создания абсолютно новой модели.

Исследователи проводят нулевую оценку моделей, обученных в рамках TIC-CLIP, с использованием набора из 28 хорошо известных задач классификации и поиска, таких как ImageNet, сдвиги в распределении ImageNet и Flickr. Наконец, используя свои бенчмарки, они разрабатывают и тестируют различные подходы к непрерывному обучению, включая буферы повторного воспроизведения, графики скорости обучения и другие виды контрольных точек (например, «теплый» старт, заплатки и дистилляция).

Команда делает важный вывод, что начинать обучение с самой последней контрольной точки и повторять все исторические данные, кумулятивная техника демонстрирует производительность, сравнимую с методом Oracle при 2,7-кратной вычислительной эффективности. Они также получают значительные идеи для графиков скорости обучения для последовательного обучения и показывают интересные компромиссы между размерами буфера для статической и динамической производительности. Их результаты согласованы по всем измерениям и методикам и подчеркивают тенденции, наблюдаемые на наборах данных, варьирующихся от 11 миллионов до 3 миллиардов образцов. Код и временные данные, собранные на основе существующих наборов данных, вскоре будут опубликованы, чтобы широкое сообщество могло использовать предложенные бенчмарки. Команда надеется, что, проливая свет на эту малоисследованную тему, их работа может проложить путь для непрерывного обучения базовых моделей.