快捷搜索:  汽车  科技

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)两周的调整后,AlphaStar 又向 2018 年 WSC 奥斯汀站亚军、世界顶级神族选手之一 MaNa 发起挑战,AlphaStar 明显在战术选择和单位操作上进步很多,例如学习和尝试封路战术。人工智能带来的微操优势也被利用,其中一局比赛中,AlphaStar 将 30 多个追猎(游戏内单位)分成 2-3 组,从 3 个方向包夹 MaNa 的进攻部队。比赛中,AlphaStar 的策略比较保守,会建造大量工人,快速建立资源优势(超过人类职业选手的 16 个或 18 个的上限),虽然 AlphaStar 5:0 取得胜利,但 TLO 赛后坦言自己觉得很有机会赢下一场比赛,他需要更多对战的机会来找到 AlphaStar 的弱点。所以相比起规则明确,有思考时间的国际象棋、围棋等传统游戏,人工智能能否在电竞类游戏中击败人类一直是关注的焦点。从公布的录像来看,AlphaStar 先是在两周前挑战

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)(1)

北京时间 25 日凌晨 2 点,Google 旗下的人工智能公司 DeepMind 在伦敦举办线上直播,公布了 10 局《星际争霸 2 》比赛录像,由其研发的游戏类人工智能 AlphaStar 向两名《星际争霸 2 》职业游戏玩家挑战,录像结果显示两名职业玩家都以 0-5 输给 AlphaStar。

《星际争霸 2》是暴雪娱乐在 2010 年 7 月发布的一款即时战略游戏(RTS)。RTS 游戏顾名思义,游戏的过程是即时进行而不是采用回合制。这意味着玩家需要在短时间内控制多个不同的单位,实时下达指令。

即时战略游戏(RTS)大多和战争题材相关,以《星际争霸 2》为例,玩家们在一块迷雾笼罩的地图上对抗,依靠探索地图获取更多信息,同时进行采集、建造、发展、战斗等过程。

在 RTS 游戏中,比赛过程随获取的信息在不断发生变化。既考验选手对游戏内的瞬间操作,也考验战术的执行,随机性很强。大约 300 个游戏指令可以分叉成接近 1 亿个可能的后续操作,而这些都要求人工智能瞬间分析做出反应。

所以相比起规则明确,有思考时间的国际象棋、围棋等传统游戏,人工智能能否在电竞类游戏中击败人类一直是关注的焦点。

从公布的录像来看,AlphaStar 先是在两周前挑战德国职业星际 2 选手 TLO,他在 2018 WCS Circuit 排名 44 位,是一名虫族玩家。

AlphaStar 在规则上有一些优势,首先比赛双方都使用的是神族,这不是 TLO 最擅长的种族。同时 AlphaStar 直接读取地图上所有的可见内容,类似于可以俯览整张地图。即使有迷雾减少信息,这也比需要切屏来操作不同区域的人类有很大的优势。

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)(2)

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)(3)

比赛中,AlphaStar 的策略比较保守,会建造大量工人,快速建立资源优势(超过人类职业选手的 16 个或 18 个的上限),虽然 AlphaStar 5:0 取得胜利,但 TLO 赛后坦言自己觉得很有机会赢下一场比赛,他需要更多对战的机会来找到 AlphaStar 的弱点。

两周的调整后,AlphaStar 又向 2018 年 WSC 奥斯汀站亚军、世界顶级神族选手之一 MaNa 发起挑战,AlphaStar 明显在战术选择和单位操作上进步很多,例如学习和尝试封路战术。人工智能带来的微操优势也被利用,其中一局比赛中,AlphaStar 将 30 多个追猎(游戏内单位)分成 2-3 组,从 3 个方向包夹 MaNa 的进攻部队。

暴雪和 DeepMind 专门在 25 日凌晨在直播平台回放了这 10 场比赛中的精选比赛。但在回放结束之后,DeepMind 宣布 AlphaStar 已经升级为更高级的版本,并在现场向 MaNa 发出了一场表演赛的挑战。

新版 AlphaStar 做了更多的限制,取消了直接读取地图可见信息的功能,它必须和人类选手一样切屏去获取信息。

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)(4)

比赛中,MaNa 采取了一边骚扰,一边积攒混合部队的战术,AlphaStar 反而陷入了应对骚扰的循环任务中,没有察觉到在主要战力上的差距增大。在战力形成之后,MaNa 一波压制击溃了 AlphaStar,取得对人工智能的首胜。

现场解说称,AlphaStar 失败在面对骚扰这种重复性行为时判断失误,浪费了大量资源。

DeepMind 在过去曾开发人工智能 AlphaGo 挑战人类,并成功 4:1 击败世界冠军李世石(九段),3:0 击败世界排名第一的中国职业选手柯洁(九段)。随后,DeepMind 宣布开发竞技游戏领域的人工智能,并在《雷神之锤 3 》、《 Dota 2》这类控制单一单位的游戏里取得对人类玩家的胜利。

而在更复杂的 RTS 游戏领域,DeepMind 很早就尝试去挑战,2016 年就和暴雪签订了开源工具 PySC2 开发协议,将在游戏平台中引入机器学习方法,进行人工智能研究。

比赛回放过程中,主持人问到 DeepMind 科学家,平时如何训练 AlphaStar ?

DeepMind 科学家 Oriol Vinyals、David Silver 解释称,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。《连线》的文章称,AlphaStar 分析了大约 50 万份匿名的游戏数据,初步让 AlphaStar 掌握了模仿人类策略的能力。

随后,DeepMind 基于不同玩家比赛数据制作出多个 AlphaStar 的代理(agent)和分叉,让它们按“Alpha League”联赛模式采用不同的战术策略,逐一相互对抗。每场比赛都会产生新的信息来迭代人工智能。

最后,DeepMind 就是在 “Alpha League”联赛中选择 5 个不易被击败的 agent 来和人类选手比赛。

星际争霸deepmind 程序员(Deepmind挑战星际争霸2人工智能)(5)

选择暴雪的《星际争霸2》作为研究项目,正是 DeepMind 团队看中这款游戏既具有高水平的竞技难度,同时游戏人群广泛,超过 240 万的游戏玩家可以提供大量的游戏比赛数据。

基于游戏的人工智能研究并非只是为了娱乐,在现实世界中,基于大量数据进行复杂的预测是人工智能最基本的挑战。其中涉及到的变量远比星际争霸要复杂得多,面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。

在直播的最后,另一场值得期待的“大战”也发出了预告。

芬兰电竞战队 ENCE 也发布通告,称 WCS 星际争霸 2 全球总冠军芬兰选手 Serral 将在与星际 2 人工智能上演一场人机大战,时间定于 2 月 15 日。

题图来源:DeepMind 官网

我们做了一个壁纸应用,给你的手机加点好奇心。去 App 商店搜 好奇怪下载吧。

猜您喜欢: