快捷搜索:  汽车  科技

alphago如何战胜对手:新版AlphaGo100比0完胜旧版

alphago如何战胜对手:新版AlphaGo100比0完胜旧版这一切是如何实现的?DeepMind团队在官方博客上称,Zero采用的是神经网络和搜索算法重组,随着训练加深,系统的表现一点一点地在进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。值得一提的是,和以往程序最大不同,AlphaGo Zero不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。通过几天的训练——包括近500万局自我对弈——AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。在公布的数据中,AlphaGo Zero以100比0的战绩打败了它的前任(在2016年3月的锦标赛中,其前任AlphaGo打败了围棋冠军李世乭)。本文中介绍,AlphaGo Zero的学习从零开始,且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子,没有任何人类数据。AlphaGo Zero仅用到一张神经网络,这

alphago如何战胜对手:新版AlphaGo100比0完胜旧版(1)

《自然》杂志官方网站公布AlphaGo Zero

今年5月27日,少年棋手柯洁憾负AlphaGo的故事在乌镇结束了。AlphaGo战胜了当时这颗星球上最强的人类棋手。柯洁说:要专注于和人类下棋,不再和机器下棋了。

然而,如今, AlphaGo又有了新成果,这一次还是和围棋有关,它叫AlphaGo Zero。

伦敦当地时间10月18日(北京时间19日),DeepMind公司在《自然》杂志官方网站上发表重磅论文,介绍了新版的AlphaGo计算机程序,它在不需要任何人类输入的条件下,迅速自学围棋。

在公布的数据中,AlphaGo Zero以100比0的战绩打败了它的前任(在2016年3月的锦标赛中,其前任AlphaGo打败了围棋冠军李世乭)。

本文中介绍,AlphaGo Zero的学习从零开始,且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子,没有任何人类数据。AlphaGo Zero仅用到一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,在每次自我对弈中进步。

新程序只使用一台机器和4个TPU,而打败李世石的程序需要使用几台机器和48个谷歌TPU机器学习加速芯片,其再上一代AlphaGo则要用到176个GPU芯片。

值得一提的是,和以往程序最大不同,AlphaGo Zero不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。通过几天的训练——包括近500万局自我对弈——AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。

这一切是如何实现的?DeepMind团队在官方博客上称,Zero采用的是神经网络和搜索算法重组,随着训练加深,系统的表现一点一点地在进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。

来两张工作对比图:

alphago如何战胜对手:新版AlphaGo100比0完胜旧版(2)

以前的AlphaGo是怎么工作的?

1.获取棋局信息后,AlphaGo会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。这个过程得出的结果是概率分布,既棋盘上每个位置都有机会被选中,但客观情况下会有一个特定的区域拥有更高的概率。

2.根据上一步得出的概率分布,价值网络会对概率高的地区再进一步的判断,得出一个只有两个值的结果,每个落子位置要么被判定为会让自己赢,要么被判定为让对手赢。

在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。

alphago如何战胜对手:新版AlphaGo100比0完胜旧版(3)

AlphaGo Zero是怎么工作的?

在下棋时中并没有明显的策略网络与价值网络的分界,它将策略网络和价值网络设定为一个新的深层神经网络fθ(s)= (p v) 。其中s为棋盘位置,p参数代表原本策略网络中代表落子概率,v参数代表落子后的胜率。

fθ(s)同时对自己和对手的胜率进行预测,在每个位置s,神经网络fθ都会进行一次计算。在其中一次对战获胜后,赢的一方所使用的p和v值将被作为参数调整进fθ。使得每一次对战后的AlphaGo Zero算法都在朝着可能存在的不败公式fθ(s)=(π z)进发。

alphago如何战胜对手:新版AlphaGo100比0完胜旧版(4)

大家对AlphaGo Zero怎么看?

对于AlphaGo Zero,柯洁在微博上称:“一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了。”

在《自然》杂志上为DeepMind论文撰写的评论中,密歇根大学计算机科学和工程学院教授Satinder Singh认为,AlphaGo和AlphaGo Zero在一年多时间里取得的进步已经证明,基于强化学习的人工智能比基于人类知识经验的智能表现得更好。实际上,AlphaGo Zero将来很有可能会帮助人类棋手提高棋艺,并启发他们对围棋的理解。

AlphaGo Zero的发布也引起了不少网民的关注。网友@游识猷说:“感觉看到一个AI碾过了古往今来所有人类棋士的大脑,AI不需要站在巨人的肩上,AI自己就能迅速成长为巨人。”

【关于AlphaGo】

2016年,谷歌旗下的DeepMind团队发布AlphaGo,并在以4:1的成绩击败了世界围棋冠军、韩国棋手李世石,震撼全球。

战胜李世石的这版AlphaGo,参考学习了大量的人类专业棋手的棋谱。此后,AlphaGo又进化出了AlphaGo Master版本,并以3:0战胜了当今世界围棋第一人、中国棋手柯洁。

此后,Deepmind公司宣布AlphaGo退役,不再与人类下棋。不过,故事并未结束。

退出人类棋坛的AlphaGo开始了闭关学习,进行“左右手互博”,从而实现“挑战自我”、“战胜自我”。

2017年10月18日,神秘面纱揭开:DeepMind推出了最新版本,也是迄今为止最强版本——AlphaGo Zero。

(据Nature自然科研官网微博、澎湃新闻、凤凰科技等)

猜您喜欢: