Танцы могут быть естественными для многих людей, но это гораздо больше, чем мы можем себе представить. Ключевой проблемой в обучении моделей ИИ танцевать, как человек, является высокая пространственно-временная сложность моделирования динамики движения человека. В последние годы многие исследователи работали над синтезом танцевальных движений из музыки, но эти попытки, как правило, включают кратковременную генерацию танца продолжительностью менее 30 секунд.

Теперь исследователи из Университета Фудань и Microsoft предложили новую архитектуру seq2seq, которая генерирует танцевальные последовательности для музыкальных клипов, длящихся минуту или дольше.

Новая модель включает в себя музыкальный кодировщик на основе преобразователя и танцевальный декодер на основе рекуррентной структуры. Кодер сначала преобразует низкоуровневые акустические характеристики входного музыкального клипа в высокоуровневые представления. Затем декодер использует рекуррентную структуру для покадрового предсказания танцевальных движений в зависимости от соответствующих музыкальных элементов.

Команда использовала механизм локального самоконтроля в кодировщике, чтобы уменьшить потребность в памяти для моделирования длинных последовательностей. Этот механизм позволяет кодировщику не только эффективно обрабатывать длинные музыкальные последовательности, но и моделировать локальные музыкальные характеристики, такие как последовательности аккордов и ритмические паттерны.

Исследователи также предлагают динамическую стратегию обучения автосостоянию в качестве нового метода обучения учебной программе, чтобы облегчить проблему накопления ошибок при прогнозировании движений человека и, таким образом, облегчить создание более длинных танцевальных последовательностей.

Предлагаемый метод был оценен по автоматическим метрикам с помощью LSTM, Aud-MoCoGAN и Dancing2Music — современного метода для задач создания музыки к танцу. Исследователи также привлекли людей для оценки реализма движения, плавности танца и даже согласованности стиля сгенерированных танцев с соответствующими музыкальными клипами.

Оценщики-люди были впечатлены — они поставили новый подход выше базовых показателей по реалистичности движения, единообразию стиля и плавности. Даже по сравнению с захватом движения реальных танцоров-людей 57,9 % аннотаторов предпочли плавность нового метода, 41,2 % — реализм движений и 30,3 % — постоянство стиля.

Исследователи говорят, что вскоре выпустят высококачественный набор данных с музыкальными и танцевальными парами вместе с их исходным кодом. В будущей работе они планируют рассмотреть явное моделирование информации о стиле при генерации танцев и включить дополнительные танцевальные стили.

Статья Dance Revolution: Long Sequence Dance Generation with Musicby Curriculum Learning находится на arXiv.

Журналист: Юань Юань | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной новости.Подпишитесь на нашу популярную Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Хотите внести свой вклад в Синхронизированный обзор? Новая колонка SyncedПоделитесь моими исследованиямиприглашает ученых поделиться своими достижениями в исследованиях с энтузиастами искусственного интеллекта со всего мира.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области ИИ? Отчет о тенденциях развития технологий искусственного интеллектавышел в свет!

Отчет об адаптивности искусственного интеллекта публичной компании из списка Fortune Global 500 за 2018 годвышел в свет!
Приобретите отчет в формате Kindle на Amazon.
Подать заявку на участие в партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.