Познакомьтесь с OmniControl подход искусственного интеллекта для включения гибких пространственных сигналов управления в модель генерации движения человека, основанную на процессе диффузии, с условием на текст.

Встречайте OmniControl направление искусственного интеллекта для добавления гибких пространственных сигналов управления в модель генерации человеческого движения на основе процесса диффузии с учетом текста.

Исследователи обращаются к проблеме комбинирования пространственных сигналов управления на каждом суставе в любой момент времени в процессе создания движения человека, условно связанного с текстом. Современные техники на основе диффузии могут создавать разнообразное и реалистичное движение человека, но им сложно интегрировать переменные пространственные сигналы управления, которые являются неотъемлемыми для многих приложений. Например, модель должна регулировать положение руки, чтобы соприкоснуться с чашкой в определенном месте и время и объяснять семантику “взять” для синтеза действия поднятия чашки. Аналогично, двигаясь по комнате с низкими потолками, модель должна внимательно регулировать высоту головы в течение определенного времени, чтобы избежать несчастных случаев.

Поскольку эти сигналы управления сложно объяснить в текстовых данных, они часто передаются в виде глобальных положений интересующих суставов в ключевых кадрах. Однако прежние методы заполнения не могут интегрировать гибкие сигналы управления из-за выбранных относительных представлений положения человека. Лимиты в основном вызваны относительными положениями суставов и таза друг относительно друга и предыдущего кадра. Глобальное положение таза, предоставленное в сигнале управления, должно быть переведено в относительное положение относительно предыдущего кадра для ввода в ключевой кадр. Аналогично, должно быть выполнено преобразование глобального положения таза для остальных суставов.

Однако относительные положения таза должны быть более точными или поправленными в ходе процесса генерации движения на основе диффузии. Для интеграции любого пространственного сигнала управления на суставах, кроме таза, сначала необходимо разрешить ограничения на таз. Другие представляют двухэтапную модель, но все же испытывают проблемы с регулировкой других суставов из-за ограниченных сигналов управления над тазом. В этом исследовании исследователи из Университета Нортеастерн и Google Research предлагают OmniControl, новую модель генерации человека на основе диффузии, которая позволяет использовать гибкие пространственные сигналы управления на любом суставе в любой момент времени. С помощью OmniControl добавляется реализм для регулировки создания движений человека.

Рисунок 1: С помощью текстового запроса и адаптивных пространственных сигналов управления OmniControl может создавать убедительные жесты человека. Более темные цвета указывают на последующие кадры. Входные сигналы управления показаны зеленой линией или точками.

Для хорошей работы модели они используют одни и те же относительные представления положения человека для ввода и вывода. Однако они предлагают, в отличие от существующих подходов, преобразовывать созданное движение в глобальные координаты для прямого сравнения с входными сигналами управления в модуле пространственного руководства, где градиенты ошибки используются для улучшения движения. Это позволяет преодолеть недостатки предыдущих методов заполнения, устраняя неопределенность относительных положений таза. Кроме того, в сравнении с предыдущими подходами это позволяет динамически итеративно уточнять созданное движение, улучшая точность управления.

Хотя пространственное руководство успешно применяется в ограничениях пространства, оно часто вызывает проблемы с отклонением и аномальными движениями человека. В этом случае представлено реалистичное руководство, которое выводит остатки относительно особенностей в каждом слое внимания модели диффузии движения, чтобы решить эти проблемы, опираясь на управляемое создание картинок. Эти остатки могут явно и плотно изменять движение всего тела. Для создания реалистичного, связного и последовательного движения с пространственными ограничениями одновременно важны как пространственное, так и реалистичное руководство, и они взаимодополняются в балансировке точности управления и реалистичности движения.

Исследования с использованием HumanML3D и KIT-ML демонстрируют, что OmniControl значительно превосходит самые передовые текстовые методы генерации движения по управлению тазом, как с точки зрения реалистичности движения, так и точности управления. Однако главное преимущество OmniControl заключается в интеграции ограничений пространства на любом суставе в любой момент времени. Кроме того, как иллюстрируется на рис. 1, можно обучить одну модель для управления несколькими суставами совместно, а не отдельно (например, как левой и правой запястьями).

Эти особенности OmniControl позволяют использовать его для нескольких последующих приложений, таких как связка созданного движения человека со стоящим пейзажем и объектами, как показано в последней колонке рис. 1. Их краткими достижениями являются: (1) Насколько им известно, OmniControl является первым методом, способным объединить пространственные сигналы управления на любом суставе в любой момент времени. (2) Для успешного балансирования точности управления и реалистичности движения в созданном движении они предлагают уникальный модуль управления, использующий пространственное и реалистичное руководство. (3) Тесты показывают, что OmniControl может управлять дополнительными суставами, используя одну модель в создании движения на основе текста, устанавливая новый стандарт для управления тазом и открывая различные приложения в создании движения человека.