Группа исследователей из Института искусственного интеллекта Пола Аллена и Иллинойсского университета в Урбане-Шампейне создала нейросеть, которая может по текстовому описанию создавать короткие анимированные ролики с персонажами мультсериала "Флинтстоуны". Статья, посвященная разработке, была размещена на сайте arXiv.org.
Как пишет N+1, система, получившая название CRAFT (Composition, Retrieval and Fusion Network, "составляющая, добывающая и спаивающая нейросеть"), способна генерировать анимированные сцены на основе описания сцены и действий персонажей. CRAFT включает в себя три разные нейросети, которые выделяют в тексте описания подходящую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон.
Для обучения системы ее создатели использовали свыше 25 тысяч размеченных вручную 75-кадровых роликов продолжительностью по три секунды. При помощи этой выборки CRAFT училась понимать, кто и что делает в каждом отрывке, и затем использовала подходящие части роликов для генерации новых сцен.
Судя по небольшому демонстрационному видеоролику, который был опубликован на YouTube, порой CRAFT допускает бросающиеся в глаза ошибки при генерировании сцен. Так, в одном из фрагментов Фред (главный персонаж мультсериала) бежит на месте. Однако в целом система демонстрирует заметный прогресс в области генерации видеоконтента из текстового описания в сравнении с существующими аналогами.
Напомним, в январе этого года разработчики из компании Microsoft представили нейросеть, способную рисовать изображения на основе текстового описания. Ее особенность состоит в том, что алгоритм генерирует изображение не из всего описания сразу, превращая его в один вектор-предложение, а изучает детали, оценивая каждое слово описания.