Познакомьтесь с ResFields новым подходом искусственного интеллекта для преодоления ограничений пространственно-временных нейронных полей в эффективном моделировании длинных и сложных временных сигналов.

Познакомьтесь с ResFields - новым подходом искусственного интеллекта для моделирования сложных временных сигналов.

Самая популярная архитектура нейронных сетей для представления непрерывных пространственно-временных полей, также известных как нейронные поля, – это многослойный персептрон. Это происходит потому, что он может кодировать непрерывные сигналы по произвольным измерениям, имеет встроенную неявную регуляризацию и спектральное смещение, облегчающее эффективную интерполяцию. Благодаря этим исключительным возможностям, многослойные персептроны добились большого успеха в различных приложениях, включая синтез изображений, анимацию, создание текстур и инновационный синтез видов. Однако сбор мелкозернистых характеристик и эффективное воспроизведение сложных сигналов реального мира являются сложными задачами из-за спектрального смещения многослойных персептронов, которое является тенденцией нейронных сетей изучать функции с низкими частотами. 

Ранее в попытках преодолеть спектральное смещение использовались позиционное кодирование или уникальные функции активации. Однако даже с использованием этих техник сложно захватить мелкозернистые характеристики, особенно при работе с большими пространственно-временными данными, такими как длинные фильмы или динамические 3D-сцены. Увеличение сложности сети в терминах общего числа нейронов – простая техника для увеличения возможностей многослойных персептронов. Однако из-за роста временной и памяти требуемой сложностью, такая техника приведет к более медленным выводам и оптимизации, а также к более дорогой оперативной памяти GPU. 

Проблема, которую они хотят решить в этом исследовании, заключается в увеличении мощности модели без ущерба для архитектуры, кодирования входных данных или функций активации нейронных полей многослойного персептрона. В то же время они хотят сохранить неявную регуляризацию нейронных сетей и добавить методы, уже используемые для снижения спектрального смещения. Основная концепция заключается в замене одного или нескольких слоев многослойного персептрона слоями, зависящими от времени, веса которых представлены в виде обучаемых остаточных параметров Wi(t), добавляемых к существующим весам слоя Wi. Исследователи из ETH Zurich, Microsoft и University of Zurich называют таким образом созданные нейронные поля ResFields.

Еще один вариант – это обучение весов многослойного персептрона с использованием метаобучения и поддержка специализированных отдельных параметров, но это требует длительного обучения, которое не масштабируется до фотореалистичной реконструкции. Разбиение пространственно-временного поля и подгонка различных/локальных нейронных областей является наиболее распространенным методом для увеличения возможностей моделирования. Однако эти техники затрудняют общее рассуждение и обобщение из-за локальных изменений градиента в сетчатых структурах, которые критически важны для восстановления полей яркости из разреженных видов. Этот метод увеличения мощности модели имеет три основных преимущества. 

Во-первых, сохраняется скорость вывода и обучения, поскольку объемлющий MLP не расширяется. Эта характеристика является важной для большинства реальных приложений нейронных полей, таких как NeRF, который стремится решить проблему обратного объемного рендеринга, повторно запрашивая нейронные поля. Во-вторых, в отличие от других подходов, которые акцентируют внимание на пространственном разделении, это моделирование сохраняет неявную регуляризацию и способность к обобщению MLP. Наконец, ResFields являются адаптивными, простыми для расширения и работают с большинством алгоритмов на основе MLP для пространственно-временных данных. Однако из-за большого количества обучаемых параметров, простая реализация ResFields может привести к ухудшению качества интерполяции. 

Они предлагают реализовать остаточные параметры в виде глобального низкоразмерного набора и набора временно-зависимых коэффициентов, черпая вдохновение из хорошо изученных факторизованных слоев с низким рангом. Это моделирование улучшает качество обобщения и значительно уменьшает объем памяти, вызванный хранением дополнительных сетевых параметров. 

Их основные вклады кратко состоят в следующем: 

• Они представляют ResFields – независимый от архитектуры строительный компонент для моделирования пространственно-временных полей. 

• Они методически показывают, как их подход улучшает несколько других существующих подходов. 

• Они демонстрируют передовые результаты для четырех сложных задач: восстановление нейронно-лучевых полей динамических сцен из разреженных откалиброванных RGB- и RGBD-камер, моделирование временных 3D-форм с использованием функций знакового расстояния и аппроксимация 2D-видео. Вы можете получить код, модели и собранные данные на GitHub.