从李世石到柯洁AlphaGo有哪些演进
世界排名第一的柯洁,曾认真研究了一年多AlphaGo喜欢的三三式;在这一年多,AlphaGo则从第18代迭代为第60代。这些表象背后,深度学习能力经历了怎样的演进?
2 日上午10点半,备受全世界瞩目的人机大战第二季全面打响。最终,人类围棋界排名第一的中国棋手柯洁输给了AI界排名第一的AlphaGo围棋人工智能程序。
一场科技层面注定失败的比赛
这是一场业内同行普遍不看好结果的比赛。
尽管柯洁在大战前悲壮地表示,“我会用所有的热情去与它做最后的对决,不管面对再强大的对手——我也绝不会后退!”赛前的豪迈,依然改变不了失败的结果。在专业棋手看来,输四分之一子的柯洁虽败犹荣。
对柯洁而言,这是一场注定艰难但必须争胜的战斗。在此之前,柯洁专门研究了AlphaGo喜欢的三三式,并在比赛中应用。
而在这一年中,AlphaGo从对阵李世石时的第18代,迭代为对阵柯洁时的第60代。快速迭代的背后,是AlphaGo全新的深度学习逻辑。这种经历迭代的深度学习逻辑,其强大力让人难以望其项背。
深度学习的两次逻辑变更
2016年在AlphaGo以4:1大胜李世石后,人工智能再次进入大众的视野,而在这场世纪“人机大战”后,Deepmind随即宣布“阿尔法狗”进入闭关状态。
直到2016年12月29日,AlphaGo才化身为神秘的Master再次复出。随后其在短短一周内,击败了包括目前中韩第一人柯洁和朴廷桓,以及古力、陈耀烨、范廷钰、常昊等10多位中韩世界冠军,豪取60连胜,就连原来信心满满的柯洁也对此也一改以往自信狂傲的口吻,声称自己很可能全输给AlphaGo。
而前两次人机对决的场景还历历在目,第三次人机大战却已悄然来临,但整个人类世界对于两方选手的感情却发生了颠覆性的变化,一边倒的认为柯洁必输。
那么这一年时间里AlphaGo身上究竟发生了什么?居然让舆论变化如此之大,这无疑源于人们对AlphaGo了解的加深。
与李世石对战的AlphaGo 1.0版混合了三种算法:蒙特卡洛树搜索+监督学习+增强学习。其中,蒙特卡洛树搜索是一种优化过的暴力计算,比1997年深蓝的暴力计算更聪明。而这里的监督学习,是通过学习 000万部人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是AlphaGo获得突破性进展的关键算法。而增强学习作为辅助,是两台AlphaGo从自我对战众中学习如何下棋,对棋力提升有限。
本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
生物谷灯盏花素片注意事项
灯盏花产业领军企业生物谷
生物谷灯盏花企业如何
孩子嗓子痒痒咳嗽怎么办儿童口臭
微信设计小程序
-
活下来的团购网站将是未来的骨干力量
大数据 | 2019-07-16
-
晶科电子高密度倒装芯片焊工艺欲摘封装器件
大数据 | 2019-07-15
-
用区块链物联网重新定义供应链
大数据 | 2019-07-15