SenseTime Research предлагает Story-to-Motion новый подход искусственного интеллекта для создания движения и траектории человека на основе длинного текста

SenseTime Research предлагает новый подход Story-to-Motion искусственного интеллекта для создания движения и траектории человека на основе длинного текста

Искусственный интеллект проникает практически во все отрасли. Создание естественного движения человека из истории имеет силу полностью трансформировать отрасли анимации, видеоигр и кино. Одна из самых сложных задач – это перевод истории в движение, которая возникает, когда персонажи должны перемещаться в различные зоны и выполнять определенные действия. Основываясь на тщательном письменном описании, эта задача требует плавной интеграции между высокоуровневым управлением движениями семантики и низкоуровневым управлением, связанным с траекториями.

Хотя было сделано много усилий для изучения текста в движении и управления персонажами, подходящего решения пока не было найдено. Существующие подходы к управлению персонажами имеют много ограничений, так как они не могут обрабатывать текстовые описания. Даже текущие подходы к текстовому в движении требуют большего количества позиционных ограничений, что приводит к созданию нестабильных движений.

Для преодоления всех этих проблем команда исследователей предложила уникальный подход, который эффективно производит траектории и генерирует контролируемые и бесконечно длинные движения, соответствующие входному тексту. Предлагаемый подход имеет три основных компонента, а именно:

  1. Управление движением на основе текста: современные модели языка берут последовательность текста, позиции и длительность из длинных текстовых описаний и используют их в качестве управляющих движениями на основе текста. Этот этап гарантирует, что создаваемые движения основаны на истории и также содержат подробности о месте и продолжительности каждого действия.
  1. Система извлечения движения на основе текста: сочетание соответствия движения и ограничений на траектории и семантику движения создает всеобъемлющую систему извлечения движений. Это гарантирует, что созданные движения отвечают запланированным семантическим и позиционным свойствам, помимо текстового описания.
  1. Progressive Mask Transformer: разработан прогрессивный масковый трансформер, чтобы устранить частые артефакты в переходных движениях, такие как скольжение ног и необычные позы. Этот элемент необходим для улучшения качества создаваемых движений и создания анимаций с более плавными переходами и более реалистичным внешним видом.

Команда сообщила, что подход был протестирован на трех различных подзадачах: смешивание движений, временное составление действий и следование траекториям. Оценка показала улучшение производительности в каждой области по сравнению с ранее использовавшимися техниками синтеза движений. Исследователи подвели итоги своих основных вкладов следующим образом:

  1. Были представлены траектории и семантика для генерации всестороннего движения из длинных текстовых описаний, тем самым решая проблему перевода истории в движение.
  1. Был предложен новый метод, названный Основанный на тексте синтез движений, который использует обширный ввод текста для точного и настраиваемого синтеза движений.
  1. Подход превосходит современные техники следования за траекторией, временного составления действий и смешивания движений, как показано в экспериментах, проведенных на наборах данных для сравнения.

В заключение, система является значительным прогрессом в синтезе движений человека из текстовых повествований. Она предлагает полное решение проблем, связанных с задачами перевода истории в движение. Она, безусловно, окажет революционное влияние на отрасли анимации, игр и кино.