Танцът може да е нещо естествено за много хора, но в него има много повече, отколкото можем да си представим. Ключово предизвикателство при обучението на AI модели да изпълняват човешки танци е високата пространствено-времева сложност при моделирането на динамиката на човешкото движение. През последните години много изследователи са работили за синтезиране на танцови движения от музика, но тези опити са склонни да включват краткотрайно генериране на танц под 30 секунди.

Сега изследователи от университета Фудан и Microsoft предложиха нова seq2seq архитектура, която генерира танцови поредици за музикални клипове, изпълнявани минута или повече.

Новият модел се състои от музикален енкодер, базиран на трансформатор, и танцов декодер, базиран на повтаряща се структура. Енкодерът първо трансформира ниско ниво на акустични характеристики на входен музикален клип в представяне на високо ниво. След това декодерът използва повтаряща се структура, за да предвиди танцови движения кадър по кадър, обусловени от съответните музикални елементи.

Екипът използва механизъм за локално самовнимание в енкодера, за да намали изискването за памет за моделиране на дълга последователност. Механизмът позволява на енкодера не само да обработва ефективно дълги музикални последователности, но и да моделира локални музикални характеристики като прогресии на акорди и ритмични модели.

Изследователите също така предлагат динамична стратегия за обучение при автоматично състояние като нов метод за обучение в учебната програма за облекчаване на проблема с натрупването на грешки при прогнозиране на движението на човека и по този начин улесняване на генерирането на по-дълги танцови последователности.

Предложеният метод беше оценен на автоматични показатели с LSTM, Aud-MoCoGAN и Dancing2Music — най-съвременният метод за задачи за генериране на музика към танц. Изследователите също привличат хора, за да оценят реализма на движението на метода, плавността на танца и дори съгласуваността на стила на генерираните танци със съответните им музикални клипове.

Човешките оценители бяха впечатлени - класирайки новия подход над базовите линии за реализъм на движението, последователност на стила и плавност. Дори в сравнение с улавяне на движение на истински танцьори, 57,9 процента от анотаторите предпочитат плавността на новия метод, 41,2 процента неговия реализъм на движението и 30,3 процента неговата последователност на стила.

Изследователите казват, че скоро ще пуснат висококачествен набор от данни с музикални и танцови двойки заедно с техния изходен код. В бъдеща работа те планират да обмислят изричното моделиране на информация за стила в генерирането на танци и да включат допълнителни танцови стилове.

Документът Танцова революция: Генериране на танци с дълга последователност с музика чрез обучение по учебна програма е на arXiv.

Журналист: Юан Юан | Редактор: Майкъл Саразен

Знаем, че не искате да пропуснете никоя история.Абонирайте се за нашия популярен Synced Global AI Weekly за да получавате седмични актуализации за AI.

Мислите да допринесете за Synced Review? Новата колона на SyncedСподелете моите изследванияприветства учените да споделят собствените си научни постижения с глобални ентусиасти на AI.

Нуждаете се от изчерпателен преглед на миналото, настоящето и бъдещето на съвременното научноизследователско развитие на ИИ? „Докладът за тенденциите в развитието на технологиите за изкуствен интелект“излезе!

2018 Fortune Global 500 Public Company AI Adaptivity Reportизлезе!
Купете форматиран на Kindle отчет на Amazon.
Кандидатствайте за „Партньорска програма Insight“, за да получите безплатен пълен PDF отчет.