炼数成金 门户 商业智能 查看内容

田渊栋总结:强化学习跳过“认识世界”,直指“改变世界”

2017-1-3 22:50| 发布者: 炼数成金_小数| 查看: 9400| 评论: 0|原作者: 田渊栋|来自: 知乎

摘要: 2016年是波澜壮阔的一年。这一年人工智能领域最抢眼的莫过于AlphaGo与李世石的五番棋对决。这一战,极大地扭转了大众对人工智能的认知,注定会载入史册。我有幸参与了历史。先是开了DarkForest这个项目,在计算机围 ...
2016年是波澜壮阔的一年。

这一年人工智能领域最抢眼的莫过于AlphaGo与李世石的五番棋对决。这一战,极大地扭转了大众对人工智能的认知,注定会载入史册。

我有幸参与了历史。先是开了DarkForest这个项目,在计算机围棋上做了一些工作,开源了代码,给社区做了些贡献;同时在 DeepMind 公布AlphaGo的论文及人机对决前后,给大家做了一些科普,收获了许多关注。

当然,两边资源投入的量级完全不同。在八月份美国围棋大会上,我有幸见到了AlphaGo的主要贡献者黄士杰(AjaHuang)和樊麾。我问他们,我们用了大概80到90块GPU来训练模型,我是否可以在演讲时说我们用了AlphaGo百分之一的GPU?

那时Aja神秘地笑了笑说:具体数字不能讲。不过,也许小于百分之一吧。

我无言以对。或许当初选择做围棋是个鲁莽的决定,不管是经验上还是资源上,差距都很大,但至少眼光是对的。并且实践过了之后,才知道强化学习(Reinforcement Learning,RL)这个方向的潜力。这个方向虽然有DeepMind和OpenAI的牛人们领头狂奔,但从十年的长远尺度上来说,还有大量的工作可以做。与传统的监督学习相比,强化学习不仅建模“得到数据以训练模型”这个问题,还建模了“如何从世界中得到数据”这个过程,这样天地一下子就广阔了很多。另一方面 RL 与行为决策直接挂钩,这就在一定程度上跳过了“认识世界”这个可能过于复杂的环节,而直指“改变世界”这样一个终极目标。当然,要让AI真能使用,就得要求它在复杂环境,很少的样本及非常稀缺的外界激励下,做出正确的决定。在这点上,大家还完全没有头绪,所以说未来的空间仍然很大。

今年RL的一个突出特点是各种虚拟环境和新训练方案层出不穷,各家都说自己虚拟平台好,算法效果好,但是否能得到相互间可比较的结果,还是要期待明后年的工作。目前看来,Atari、OpenAI Gym或者参加各种AI比赛,都可以用来评测算法的好坏,但究竟什么样的评测是客观公正的,还需要摸索。因为各类虚拟环境实在太多,样本采集还有随机性,因此好的评测可能比设计计算机视觉中imagenet的数据集更加困难——也许最终都只能放到机器人上,在真实世界中做比较了吧。

RL的另一个有趣的地方是,研究者们需要同时具备强的研究能力、工程能力和数学基础;以后要是机器人大行其道,那就连硬件经验都要一并跟上。RL其实是个很老的跨学科领域,各时代的文章里数学符号和概念都不太一样,要读通需要花一番功夫,要发好文章则更要多思考。在工程上,相比日渐成熟的DL框架,RL的框架另有一些精巧的地方,各种小细节很多,往往错一个则全盘皆输。不过正因为如此,与在现有模型上调参数相比,做RL更具有挑战性。今年我们的Doom AI Bot拿了Track1的冠军是一个惊喜,我很幸运招到了@吴育昕 这样优秀的实习生。

如何让计算机自动写代码则是另一个非常有意思的方向。去年可微计算机(Differentiable machine)非常火爆,大家都设计出带记忆带attention的深度网络模型去学习如何给定程序输入得到算法题的输出,但却忽略了让计算机自动写代码这个更直接,更切合人类思维方式的方案。果不其然,今年年底相关文章井喷,我们也投了一篇,不知道明年又会如何发展。

---------------------------------

总的来说,这一年过得不错。和老婆团聚,第一次被那么多人关注,第一次完成半程马拉松,第一次一个会议投三篇,第一次投稿深度学习的理论。做了那么多以前没能做成的事,真有一种人生才刚刚开始的感觉。

希望接下来的2017年,更加精彩。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2017-1-17 08:43 , Processed in 0.628024 second(s), 30 queries .