
Изследователи от MAP, Пекинския университет за пощи и телекомуникации и лабораторията NJU-LINK на университета в Нанкин, между другото, съвместно представиха AutoMV, първата мултиагентна система с отворен код, без обучение, способна да генерира пълнометражни музикални видеоклипове (MV) с продължителност няколко минути.
Традиционните модели за генериране на AI видео се борят с музика с дълга форма поради ограничения на продължителността, аудио-визуално несъответствие и лоша последователност на символите. AutoMV преодолява тези предизвикателства, като симулира професионален производствен процес и разделя задачата на четири етапа: предварителна обработка на музика, писане на сценарий и режисура, видео генериране и итеративна проверка.
Системата използва инструменти за разделяне на вокали и акомпанимент, извличане на текстове и анализиране на структурата на песента. Специализираните агенти действат като „сценарист“ и „режисьор“, генерирайки разкадровки и визуални указания, докато библиотеката с герои гарантира визуална последователност в цялото видео.
Ключовата иновация на AutoMV е въвеждането на агент за проверка, който автоматично проверява генерираните клипове за физическа правдоподобност, кохерентност на разказа и аудио-визуално подравняване. Клиповете, които не преминат проверката, се отхвърлят автоматично и се генерират отново. Екипът също изгради нов бенчмарк, M2V, състоящ се от 30 песни. Резултатите от оценката показват, че AutoMV значително превъзхожда комерсиалните базови линии като OpenArt-story и Revid.ai по отношение на последователността на героите и разказването на истории, като същевременно постига най-високите резултати в аудио-визуалната синхронизация.
Като система с отворен код, без обучение, AutoMV предоставя на независими музиканти и създатели инструмент с ниска цена (приблизителна цена около $15 USD) за създаване на музикални видеоклипове в професионален стил. Генерирането на пълен MV в момента отнема около 30 минути, въпреки че екипът отбелязва възможност за подобрение в сложните сценарии за синхронизиране на танци.
Източник: QbitAi
Нашия източник е Българо-Китайска Търговско-промишлена палaта