快捷搜索:  汽车  科技

rnn的优缺点(强化学习风头正劲)

rnn的优缺点(强化学习风头正劲)表征学习无监督不幸的是,这种情况似乎并没有引起AI研究者的注意和反思。其他的workshop都爆满,但AI for Social Good workshop却门可罗雀,直到Yoshua Bengio出现。在我参与的众多ICLR交流活动中,没有人提到过多样性,直到有一次我大声问出来为什么我被邀请到这个并不适合我的科技活动,一位朋友告诉我说,“说出来可能有点冒犯,请你来是因为你是女性。”这种现象出现的一个原因是,这类话题并非“技术性”的,因此在上面花时间并不会对你的研究生涯有所助益。另一个原因是,社会宣传仍然存在一些问题。一位朋友曾告诉我,不要理睬那个在群聊中挑衅我的家伙,因为“他喜欢取笑那些探讨平等和多样性的人”。我有些朋友不会在网上谈论任何有关多样性的话题,因为他们不想“和那种话题扯上关系”。2. 无监督表征学习 & 迁移学习

上周,深度学习顶会 ICLR 2019 在新奥尔良落幕。毕业于斯坦福大学、现就职于英伟达的计算机科学家Chip Huyen参加了这次会议,并总结出了参会的8点感受。

1. 包容性

ICLR 2019 组织者强调包容性在AI中的重要性,前两个主要演讲——Sasha Rush的开场致辞和Cynthia Dwork的受邀演讲——都是有关公平和平等的。以下是一些令人担忧的统计数据:

  • 只有8.6%的展示者(oral和poster)和15%的参会者是女性;
  • 2/3的LGBTQ 研究者没有以专业身份出席;
  • 8名受邀演讲者均为白人。

rnn的优缺点(强化学习风头正劲)(1)

Sasha Rush开场致辞的一页PPT。

不幸的是,这种情况似乎并没有引起AI研究者的注意和反思。其他的workshop都爆满,但AI for Social Good workshop却门可罗雀,直到Yoshua Bengio出现。在我参与的众多ICLR交流活动中,没有人提到过多样性,直到有一次我大声问出来为什么我被邀请到这个并不适合我的科技活动,一位朋友告诉我说,“说出来可能有点冒犯,请你来是因为你是女性。”

这种现象出现的一个原因是,这类话题并非“技术性”的,因此在上面花时间并不会对你的研究生涯有所助益。另一个原因是,社会宣传仍然存在一些问题。一位朋友曾告诉我,不要理睬那个在群聊中挑衅我的家伙,因为“他喜欢取笑那些探讨平等和多样性的人”。我有些朋友不会在网上谈论任何有关多样性的话题,因为他们不想“和那种话题扯上关系”。

2. 无监督表征学习 & 迁移学习

无监督

表征学习

的主要目标是从无标注数据中发现有用的数据表征,以完成后续任务。在NLP中,无监督表征学习通常是利用语言建模完成的。然后将学到的表征用到情感分析、命名实体识别、

机器翻译

等任务中。

去年有一些比较令人振奋的论文是关于NLP无监督表征学习的,包括

ELMo

(Peters et al.)、ULMFiT (Howard et al.)、

OpenAI

’s GPT (Radford et al.)、

BERT

(Devlin et al.),当然,还有「危险性太大而不能公布的

GPT-2

」。

完整的

GPT-2

模型在ICLR上进行了展示,效果惊人。你可以输入任意提示,由它来完成后续文本创作。

GPT-2应用网站:https://talktotransformer.com/

rnn的优缺点(强化学习风头正劲)(2)

Adam King利用GPT-2做成的应用网站。输入为“what does Amazon want to do”(ps:实际转化速度较慢,动画为删减绝大部分重复帧之后的效果)。网站地址:https://talktotransformer.com/

GPT-2可以写出各种文章、科学论文甚至是编造词汇的定义。但是GPT-2现在看起来还没有完全达到人类水平。该团队正在致力于GPT-3的研究,这个模型更大,也可能更好。

虽然

计算机视觉

是首个成功应用迁移学习的社区,但其基本任务——在ImageNet上训练分类模型——仍然是监督式的。自然语言处理社区和计算机视觉社区都在问同一个问题:「怎样才能将无监督表征学习应用到图像上?」

尽管那些最有名的实验室已经开始研究,但只有一篇论文出现在ICLR大会上:「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。该研究团队没有更新权重,而是用算法更新学习规则。接下来在少量标注样本上微调从学得学习规则中学到的表征,来解决图像分类问题。他们能够在MNIST和Fashion MNIST上找到准确率大于70%的学习规则。作者不打算公布代码,因为“它与计算有关”。外层循环需要大约10万训练步,在256个GPU上需要200个小时的训练时间。

rnn的优缺点(强化学习风头正劲)(3)

元学习的内、外循环(Metz et al.)。

我有一种感觉,在不久的将来,我们会看到更多这样的论文。可以使用无监督学习的任务包括:自动编码、预测图像旋转(Gidaris等人的论文《Unsupervised Representation Learning by Predicting Image Rotations》在ICLR 2018上很火)、预测视频中的下一帧。

3. ML的复古

机器学习领域的想法和时尚类似,都是循环式的。在poster session四处走走感觉像走在记忆的回廊上。即使最受期待的ICLR辩论也终结在「先验 vs 结构」的话题上,而这是去年Yann LeCun 和 Christopher Manning讨论过的话题,这种讨论类似贝叶斯学派和频率学派之间的经年辩论。

MIT媒体实验室的「Grounded Language Learning and Understanding」项目在2001年就中断了,但是grounded language learning今年带着两篇论文重回舞台,不过它穿上了强化学习的外衣:

  • DOM-Q-NET: Grounded RL on Structured Language (Jia et al.):给出一个用自然语言表达的目标,该
  • 强化学习
  • 算法通过填充字段和点击链接学习导航网页。
  • BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.):一个和OpenAI Gym兼容的平台,具备一个手工制作的bot agent,该智能体可以模拟人类教师指导智能体学习合成语言。

我对这两篇论文的想法和AnonReviewer4一样:

「……这里提出的方法和语义解析文献中研究的方法非常类似,尽管这篇论文仅引用了最近的深度强化学习论文。我认为作者会从语义解析文章中受益良多,语义解析社区也可以从这篇论文中得到一些启发……但是这两个社区实际上交流并不多,即使在某些情况下我们研究的是类似的问题。」

确定性有限状态自动机(DFA)也有两篇论文登上了ICLR 2019的舞台:

  • Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)
  • Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)

两篇论文的主要动机是,因为RNN中的隐藏态空间很大,是否有可能把状态数量减少到有限的数量?我质疑DFA是否能够有效地在语言中代表RNN,但我很喜欢在训练阶段学习RNN,然后把它转换到DFA进行推理的想法,如同 Koul等人的论文所示。结果得到的有限表征在游戏Pong中只需要3个离散记忆状态和10个观察状态,它也能帮助解释RNN。

rnn的优缺点(强化学习风头正劲)(4)

从RNN学习一个DFA的三个阶段(koul等人)。

rnn的优缺点(强化学习风头正劲)(5)

提取自动机(Koul等人)

4. RNN失宠

2018到2019年的提交论文主题变化反映出:RNN出现大幅下降。这也在意料之中,因为RNN虽然适用于序列数据,但也存在极大缺陷:它们无法并行化,因而无法利用2012年以来最大的研究驱动因素——算力。RNN在计算机视觉和强化学习领域并不流行,而在一度流行的自然语言处理领域,它们也正在被基于注意力的架构取代。

rnn的优缺点(强化学习风头正劲)(6)

RNN失宠。(图源: ICLR 2019补充统计数据)

这是否意味着RNN将死亡。并非如此。ICLR 2019的最佳论文之一《 Ordered neurons: Integrating tree structures into Recurrent Neural Networks》 就和RNN有关。除了这篇最佳论文和上文提到的两篇关于自动机的论文以外,ICLR 2019还接收了9篇关于RNN的论文,其中大部分研究深入挖掘RNN的数学基础知识,而不是探索RNN的新应用。

在工业界,RNN仍然很活跃,尤其是处理时序数据的公司,比如贸易公司。而不幸的是,这些公司通常不会发表自己的研究。即使现在RNN对研究者不是那么有吸引力,我们也知道未来它可能「卷土重来」。

5. GAN仍然势头强劲

相比去年,GAN的相对变化呈负数,但相关论文的数量实际上有所增长,从大约70篇增长到了100篇左右。Ian Goodfellow 受邀发表了以GAN为主题的演讲,一如既往受到了众多关注。

ICLR 2019第一个poster session是关于GAN的。出现了很多新的GAN架构、对已有GAN架构的改进,以及GAN分析。GAN应用囊括图像生成、文本生成、音频合成等多个领域,有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN等不同架构。

rnn的优缺点(强化学习风头正劲)(7)

GAN poster session揭示了社区对GAN的反应是多么地两极分化。一些非GAN研究者如此评论:「我等不及想让GAN这波风潮赶紧过去」、「一有人提到对抗,我的脑子就宕机。」他们可能是嫉妒吧。

6. 缺乏生物启发式深度学习

鉴于大家对基因测序和CRISPR婴儿的忧虑和讨论,ICLR竟然没有出现很多结合深度学习和生物学的论文,这令人惊讶。关于这个话题一共有6篇论文:

两篇关于生物启发式架构:

  • Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)
  • A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇关于RNA设计:

  • Learning to Design RNA (Runge et al.)

三篇关于蛋白质控制(protein manipulation):

  • Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)
  • Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)
  • Learning protein sequence embeddings using information from structure (Bepler et al.)

rnn的优缺点(强化学习风头正劲)(8)

受视网膜启发的卷积神经网络 (Lindsey et al.)

没有一篇论文是关于基因组学的,也没有一个workshop是关于这个话题的。这挺让人难过的,不过对生物学感兴趣的深度学习研究者或对深度学习感兴趣的生物学家而言,这是一个巨大的机会。

7. 强化学习仍然是提交论文中最热门的话题

ICLR 2019大会上的研究论文表明强化学习社区正在从无模型方法转向样本高效的基于模型的算法和

元学习

算法。这种转变很可能受到 TD3 (Fujimoto et al. 2018) 和 SAC (Haarnoja et al. 2018) 设置的Mujoco连续控制基准上的极高分数,以及 R2D2 (Kapturowski et al. ICLR 2019) 设置的Atari离散控制人物上的极高分数的启发。

基于模型的算法(即从数据中学习环境模型,然后利用该模型规划或生成更多数据)在使用1/10-1/100的经验进行训练时,仍能达到和无模型算法一样的渐近性能。这种优势表明基于模型的算法适合现实世界任务。当学得的模拟器可能有缺陷时,其误差可以通过更复杂的动态模型得到缓解,比如模拟器的集成 (Rajeswaran et al.)。将强化学习应用到现实世界问题的另一种方式是,使模拟器支持任意复杂的随机化:在多样化的模拟环境中训练的策略可能认为现实世界是「另一次随机化」,并取得成功 (OpenAI)。

可在多个任务上执行快速迁移学习的元学习算法使得样本效率和性能得到大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。这些改善使我们更加接近「强化学习的ImageNet时刻」,即我们可以使用从其他任务上学习的控制策略,而不用从头开始训练策略(目前在复杂任务上这仍是无法实现的)。

rnn的优缺点(强化学习风头正劲)(9)

在六个基准任务上,PEARL (Rakelly et al.) 的渐近性能和元训练样本效率都优于之前的元强化学习方法。

ICLR 2019接收论文中的很大一部分,以及Structure and Priors in RL (SPiRL) workshop中的所有论文,是关于如何将环境知识集成到学习算法的。尽管早期深度强化学习算法的主要优势之一是一般性(如DQN对所有Atari游戏使用同样的架构,而无需了解其中哪一个特定游戏),但是新算法展示出集成先验知识有助于解决更复杂的任务。例如,在Transporter Network (Jakab et al.) 中,智能体使用先验知识执行具备更多信息的结构探索。

总结来说,过去5年,强化学习社区开发了大量有效的工具来解决无模型强化学习难题。现在,是时候提出更采样高效、可迁移的算法在现实世界问题上利用强化学习了。

此外,Sergey Levine可能是今年接收论文最多的作者,有15篇之多。

8. 大部分接收论文很快就会被遗忘

在会上,我问一位知名研究者他如何看待今年的接收论文。他轻笑道:「大部分接收论文会议一结束就会被遗忘。」像机器学习这样快速发展的领域,SOTA结果几周甚至几天后就可能被打破,大部分接收论文还没正式展示就已经被超越也就不令人惊讶了。例如,

ICLR 2018论文中8篇对抗样本论文中的7篇在大会开始前已经被打破

大会上我经常听到的一个评论是,论文接收/拒收很随机。我不说名字,但一些广为人知或者引用很高的论文就曾被大会拒收过。此外,许多接收论文可能也无人引用。

作为这个领域的一份子,我经常面临存在危机。无论我想到了什么灵感,似乎总有其他人已经在做了,且做得更好、更快。如果一篇论文对任何人都没有帮助,那又有什么发表的意义呢?谁能帮我解惑!

结论

当然,还有很多没有覆盖到的趋势,例如:

  • 优化和正则化:Adam和SGD的争论仍在继续。今年ICLR大会提出了许多新技术,其中一些相当令人激动。看起来,每个实验室都在开发自己的优化器,我们团队同样如此。
  • 评估度量:随着生成模型越来越流行,我们不可避免地需要提出新的度量标准,以评估生成的输出。

如果你想要了解更多,David Abel发布了一个55页的ICLR 2019笔记。想了解ICLR 2019热点的人,下面这张图会有所帮助:

rnn的优缺点(强化学习风头正劲)(10)

看起来,应该写一篇名为「A robust probabilistic framework for universal transferrable unsupervised meta-learning」的论文(一定能火)。

我真的很享受ICLR,这个大会够大,能找到很多志同道合的朋友,也够小,不用事事都排队,4天的会议也刚刚好。相比之下,NeurIPS就有点太长,参会四天后我就会边看poster边想:「看看所有这些知识,我应该现在就掌握,但却并不想。」

我在ICLR大会上最大的收获不仅是思路,还有动力。许多我这个年纪的研究者作出的卓越成果让我看到了研究之美,激励我更努力地工作。用一周的时间追论文见老朋友也非常nice。

rnn的优缺点(强化学习风头正劲)(11)

原文链接:

https://huyenchip.com/2019/05/12/top-8-trends-from-iclr-2019.html

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

猜您喜欢: