DeepMind / youtube.com

Программа AlphaStar, разработанная компанией DeepMind (входит в состав владеющего Google холдинга Alphabet), смогла всухую обыграть двух профессиональных игроков в стратегию в реальном времени StarCraft II в сериях из пяти матчей. Полная видеозапись турнира, прошедшего в Лондоне при участии создавшей игру компании Blizzard, была опубликована на YouTube.

Как пишет N+1, для обеих частей StarCraft уже давно разрабатываются боты, но до сих пор таким алгоритмам не удавалось победить человека. Основная сложность обучения программ для этих игр заключается в том, что они представляют собой стратегии в реальном времени, в которых часть информации закрыта, а игрокам нужно решать большое количество задач одновременно.

Ранее в DeepMind уже пытались создать алгоритм для игры в StarCraft II, но те попытки не увенчались успехом. Теперь же разработчики представили программу AlphaStar, которая может профессиональных игроков в StarCraft II. В процессе создания AlphaStar в DeepMind использовали метод глубокого обучения с подкреплением, а также обучение с учителем. В качестве тренировочного датасета разработчики использовали предоставленные компанией Blizzard анонимизированные записи игр настоящих людей. Когда обученная на этих играх нейросеть научилась побеждать встроенные алгоритмы StarCraft II на самой высокой сложности в 95% случаев, создатели заставили программу играть с самой собой в течение двух недель.

На организованном в Лондоне турнире AlphaStar сперва выиграла пять матчей из пяти против геймера под ником TLO (Дарио Вунш, Германия), а затем другая версия нейросети пять раз подряд победила игрока MaNa (Гжегож Коминч, Польша). Оба геймера входят в сотню сильнейших игроков в StarCraft II. При этом среднее значение APM (количество действий в минуту) нейросети оказалось значительно меньше, чем у ее противников.

Стоит отметить, что у программы изначально было небольшое преимущество перед соперниками. Хотя так называемый туман войны закрывал для нейросети карту так же, как и для геймеров, AlphaStar получала для обработки не частичное изображение известной области, а видела сразу все, что позволяла увидеть игра. За счет этого нейросети не приходилось постоянно переключаться между разными зонами карты для контроля за происходящим. О значимости этого преимущества говорит тот факт, что AlphaStar проиграла демонстрационный матча с MaNa, в котором разработчики заставили программу играть с обычным ограничением масштаба видимой области.

Напомним, в июле прошлого года в DeepMind смогли обучить программу под названием For The Win играть в Quake III Arena не хуже настоящих геймеров.