DeepMind / YouTube

Принадлежащая Google компания DeepMind предложила новый подход к обучению алгоритмов искусственного интеллекта, который позволяет сделать процесс в десять раз эффективнее по сравнению с существующими системами. Статья, описывающая новый алгоритм, получивший название IMPALA, была опубликована на ArXiv.org.

Как напоминает N+1, большинство существующих алгоритмов искусственного интеллекта, предназначенных для анализа и освоения различных игр, используют обучение с подкреплением. Суть этого метода состоит в том, что в процессе тренировки программа получает отклик от среды (очки за успешное прохождение или штрафные баллы за ошибки) и благодаря этому улучшает свою работу. Как правило, алгоритм учится выполнять конкретную задачу - попадая в новые условия, он не может применить ранее полученные навыки.

Предложенный DeepMind подход позволяет отдельным частям обучаться выполнению сразу нескольких задач, а потом обмениваться знаниями между собой. Тренировка алгоритма IMPALA на датасете DMLab-30, включающем 57 игр компании Atari, показала, что при наличии достаточного числа процессоров программа может обрабатывать примерно 250 тысяч кадров в секунду, или 21 миллиард кадров в день, что является абсолютным рекордом. Для сравнения DeepMind опубликовала на YouTube ролики, демонстрирующие прохождение одной из игр человеком и новым алгоритмом компании.

Как полагают в DeepMind, в перспективе подобные алгоритмы могут найти применение в робототехнике - с их помощью роботы смогут быстрее адаптироваться к окружающей среде и работать эффективнее.

Напомним, что в декабре прошлого года созданная DeepMind программа AlphaZero за восемь часов освоила игру го, потратила четыре часа на обучение шахматам и всего два часа - на освоение сёги. Во всех случаях после обучения AlphaZero уверенно обыграла лучшие в мире программы для каждой из игр.