神经网络如何外推:从前馈到图形神经网络

Submitted by neurta on Thu, 01/14/2021 - 08:26
iclr

最终决定 

ICLR 2021会议计划主席

2021年1月8日(修改时间:2021年1月13日)ICLR 2021会议论文700决策读者: 大家

决定:接受(口头)

评论:

本文研究了(两层)神经网络如何外推。论文写得很漂亮,作者非常成功地回答了所有问题。他们设法更新了论文,澄清了假设并添加了其他实验。

[–]

更新资料 

ICLR 2021会议论文700位作者

2020年11月21日(修改:2020年11月21日)ICLR 2021会议论文700官方评论读者: 大家

评论:

尊敬的审稿人和审计委员会,

我们更新了草稿,以纳入审稿人的有见地的建议:

遵循Reviewer 3和Reviewer 4的建议,我们在第3.3节(先前在附录中提供了初步结果)中针对具有不同激活函数(tanh,二次方和余弦)的MLP添加了其他外推实验。

根据Reviewer 4的建议,我们添加了关于与其他分布外设置的关系的第5节(第5节),包括域自适应,自我监督学习,不变模型和分布鲁棒性。

遵循Reviewer 2的建议,我们在整个论文中都明确了定理的假设。我们还强调说,我们的理论结果在不同的训练设置(例如,宽度,深度,学习率,批量大小)上经验性地成立,因此在实践中可以放宽假设。

遵循审稿人3的建议,我们在4.1节中讨论了相关的神经算术逻辑单元。我们的结果可能提出了一个解释,为什么他们提出的体系结构可以改进算术任务的外推。

在最终版本中,我们将改进审阅者1,审阅者2,审阅者3,审阅者4的其他次要方面。谢谢大家的宝贵建议。

如果您还有其他问题,请告诉我们。

谢谢,

s

[–]

一般更新 

ICLR 2021会议论文700位作者

2020年11月15日(修改日期:2020年11月19日)ICLR 2021会议论文700官方评论读者: 大家

评论:

尊敬的审稿人和审计委员会,

我们衷心感谢所有评论。他们在我们的论文中给出了积极而高质量的评论,并提供了许多建设性的反馈。我们正在努力纳入审稿人的有见地和有价值的建议。我们将更新草稿并尽快发布回复。

[–]

有趣的论文,结果有些具体 

ICLR 2021会议论文700 AnonReviewer2

2020年10月28日(修改:2020年11月22日)ICLR 2021会议论文700官方评论读者: 大家

评论:

概要

本文研究了神经网络如何外推。作者从理论上研究了NTK体制中均方损失的两层ReLU MLP,并基于这些结果研究了GNN。他们发现,MLP可以从原点沿任何方向快速收敛到线性函数,但是可以证明在训练分布足够多样化的情况下学习线性目标函数。对于GNN,他们提出了一个假设,即将算法任务外推到新数据的成功取决于对体系结构或功能中特定于任务的非线性进行编码。理论结果得到经验结果的支持,有时甚至超出定理的特定条件(例如,将MLP中的层数增加到附录C.1中的4)。

优点

  • 本文提供了关于神经网络,尤其是GNN的外推功能的理论和实践见解。
  • 我特别喜欢有关GNN的部分以及以下假设:如果我们可以对MLP外部的非线性进行编码,以便MLP仅需学习线性函数,那么GNN将会很好地进行推断。
  • 总体而言,我发现该论文非常有趣并且阅读有趣。

顾虑

  • MLP的理论结果非常具体。有时从结果的摘要或讨论中都看不出来。一些约束:
    • MLP有两层,我发现这是最大的限制,因为大多数实际的MLP都有更多的层。
    • 整篇论文均使用均方根损失。我认为这还不够强调(本文仅一次提及)。据我了解,证明也依赖于损失,因此损失应包含在定理的条件中。
    • 我们处于NTK体制之下,这当然可以从所使用的技术中看出。但是,摘要中未提及。
    • MLP是ReLU MLP,本文对此进行了充分强调。作者将其他激活函数的初步经验结果包括在附录中(正弦,二次方和正切)。

问题

  • 定理3和定理5的证明是否可以推广到具有更多层的MLP?
  • 我们是否可以基于这些结果对其他损失函数(例如softmax)的外推有所了解?

排名原因

我发现该论文非常有趣,并从中获得了很多见识。MLP的某些约束没有得到足够的重视,并且在某些方面的写作比结果有保证的更为笼统。即使存在限制,我仍然相信这是重要的一步,并为神经网络的外推功能提供了启示。如果可以更清楚地限制我,我愿意进一步提高自己的分数。

次要评论

  • 第5页的倒数第二段:“对于定理5”应为“对于定理5”。
  • 图1的标题:outisde =>外面
  • 在4.2。“实验:有助于外推的体系结构”中:“具有最大读数的GNN优于具有和读数的GNN(图6a)”应该是图5a。

评分:9:接受论文的前15%,强烈接受

信心:3:审阅者相当有信心评估是正确的

[–]

我们的回应 

ICLR 2021会议论文700位作者

2020年11月21日(修改:2020年11月21日)ICLR 2021会议论文700官方评论读者: 大家

评论:

多谢您的宝贵意见。

在整个论文中,我们已经使定理的假设更加清楚:(1)在抽象中,我们现在指出,我们的理论结果建立在过参数化网络与神经切线核之间的联系上;(2)我们已经阐明,我们在所有定理中都使用平方损失;(3)在引言和第3节中,我们强调了我们的证明适用于两层网络。正如您已经认识到的那样,我们使用实验来确认我们的理论在不同的训练设置(例如4层网络(附录C.1和C.2))中成立。因此,定理中的假设可以在实践中放宽。再次感谢您的有益建议。请让我们知道是否有任何不正确的地方,我们将在最终版本中对其进行修复。

我们在下面回答您的问题。

问题1:定理3和定理5的证明是否可以推广到具有更多层的MLP?

答:经过一些初步的计算,我们认为我们的证明技术可以扩展到两层以上。但是,要为更多层提供完整的证明,需要付出很大的努力,因此,我们目前尚无完整的证明。注意,出于类似的原因,有关NTK的大多数理论著作都集中在两层。您可能已经注意到,我们确实有实验结果来确认我们的理论适用于更深的网络(附录C.1和C.2)。我们同意将证明扩展到多层是一个重要的未来方向。

问题2:我们能否根据这些结果对其他损失函数(例如softmax)的外推有所了解?

A2:不幸的是,很难将理论扩展到softmax损失,但是,我们同意这是未来工作的重要方向。请注意,平方损失可以与其他损失进行竞争[1],因此我们从回归任务中学到的经验教训也可能对分类任务有用。

[1]关于分类中深层神经网络的损失函数。Janocha等。2017年

我们已经按照建议修复了语法错误。

我们很高兴回答您可能遇到的其他问题。

[–]

响应 

ICLR 2021会议论文700 AnonReviewer2

2020年11月22日ICLR 2021会议论文700官方评论读者: 大家

评论:

感谢您的详细回复!我真的很喜欢这篇论文,我的疑虑得到了解决,所以我将分数更新为9。

[–]

谢谢 

ICLR 2021会议论文700位作者

2020年11月22日ICLR 2021会议论文700官方评论读者: 大家

评论:

谢谢!我们很高兴您喜欢我们的论文,也感谢您的深刻见解。

[–]

MLP和GNN外推能力的关键研究为多域适应分析提供了不同的方面 

ICLR 2021会议论文700 AnonReviewer4

2020年10月28日(修改:2020年11月11日)ICLR 2021会议论文700官方评论读者: 大家

评论:

本文分析了MLP和GNN的外推能力。与现有的侧重于这些模型的可推广性和容量的理论工作相反,本文重点介绍了使用梯度下降的训练算法的行为。以通过神经正切核进行核回归的类比为例,研究梯度下降算法引起的偏差。本文的介绍清晰且井井有条,第一部分显示了最有意义的结果,引起了读者的兴趣,而不是让他们留下大量的证据。本文的贡献也很重要,因为与模型结构本身的理论分析相比,它引起了研究人员对算法实现所引起的偏差的理论分析的关注。模型外推还与元学习,多任务学习,领域适应和半监督学习等主题紧密相关,因为模型外推的功能在应用于其他任务时会限制其性能。

优点:

  1. 本文显示了一些有趣的结果:例如,由GD训练的带有ReLU的MLP将在训练数据支持范围之外的任意方向上收敛到线性函数。这与MLP在不同区域呈分段线性的想法相吻合。但是,证明很复杂,并且需要以核回归为基础。该结果似乎表明,在训练数据支持的数据流形上对MLP的学习也是局部线性的,并且在没有训练数据支持的情况下,归纳遵循线性惯性。很奇怪,这是否是由于ReLU函数的分段线性所致。也许我们将使用tanh和其他S型函数对MLP进行更好的非线性外推。
  2. GNN和动态编程算法之间的比较非常直观和启发。这表明与GNN中更常用的总和相反,最大/最小集合更适合于外推,并且最大/最小集合GNN和DP之间的相似性也很有说服力。总的来说,在深入研究证明之前,本文已经建立了良好的直觉。
  3. 改善外推的建议是将非线性放入GNN的体系结构或输入表示中是有用的。例如,将sum-aggregate替换为min / max聚合有助于实现良好的推断。这也解释了为什么像BERT这样的预训练嵌入可以用于其他任务,并且仍然可以很好地推断出来。

意见建议:

  1. 研究范围的局限性。本文仅讨论使用ReLU和GD的神经网络的结果。尽管GD被广泛使用,但ReLU作为激活功能在外推研究中起着关键作用。有必要对其他常用激活函数的使用进行分析,以了解外推能力是否得到扩展。
  2. 有趣的是,看到与领域适应和半监督学习的更多联系。

评分:9:接受论文的前15%,强烈接受

信心:4:审阅者有信心,但不能绝对确定评估是否正确

[–]

我们的回应 

ICLR 2021会议论文700位作者

2020年11月21日ICLR 2021会议论文700官方评论读者: 大家

评论:

多谢您的宝贵意见。

我们在第3.3节中对具有tanh,二次方和余弦激活函数的MLP添加了附加实验。我们探索了这些MLP在我们用于ReLU MLP的任务上的外推能力。通常,MLP更好地外推涉及与MLP激活“相似”的非线性的函数,例如,当学习二次函数时,二次MLP可以很好地外推。我们将理论分析留给以后的工作。

我们添加了第5节,以讨论我们的结果与其他分布外设置(包括域自适应,自我监督学习,不变模型和分布鲁棒性)之间的联系。我们推测,这些方法中的某些方法可能会通过(1)从未标记的分布外数据中学习超出训练数据范围的有用非线性,以及(2)将相关的分布外测试数据映射到训练数据范围来改善外推。

我们很高兴回答您可能遇到的其他问题。

[–]

加强我们对图神经网络理解的重要工作。想法是相关的,扎实的和良好的支持。总体上出色的工作。 

ICLR 2021会议论文700 AnonReviewer1

2020年10月28日(修改:2020年11月11日)ICLR 2021会议论文700官方评论读者: 大家

评论:

本文从理论的角度研究了MLP和GNN的外推能力(受梯度下降和均方损失的影响)。作者展示了广泛实验的结果,这些结果支持了他们的理论发现。

特别是,作者研究了这些神经网络在训练分布之外学习什么的问题,并在它们很好地推断时确定条件。他们的发现表明,ReLU MLP在线性任务中可以很好地外推,收敛速度快(O(1 / \ epsilon)。当使用网络架构或数据表示形式对非线性操作进行编码时,GNN(具有MLP模块)可以很好地外推,因此内部MLP模块仅与线性函数对齐。

论文写得很好,清楚地解释了想法和定义,并详细列出了实验。这项工作的理论贡献很重要,因为它们加深了我们对这些网络的学习方式和泛化程度的理解。这些发现有助于我们根据手头的数据和问题设计GNN。因此,这项工作解决了GNN理解中的一个基本问题,必须予以出版。

对作者的一些评论/问题:

  • 在第3.2节中,根据培训支持和指导非正式地定义了分发的“多样性”。更详尽的定义会有所帮助。
  • 该论文的标题有些误导:“从前馈到GNN”暗示该论文中还讨论了其他网络类型。

评分:9:接受论文的前15%,强烈接受

信心:4:审阅者有信心,但不能绝对确定评估是否正确

[–]

我们的回应 

ICLR 2021会议论文700位作者

2020年11月21日ICLR 2021会议论文700官方评论读者: 大家

评论:

多谢您的宝贵意见。我们在下面回答您的问题。

问题1:在第3.2节中,根据培训支持和指导非正式地定义了分布的“多样性”。更详尽的定义会有所帮助。

A1:我们在定理5中提供了“多样性”的确切定义。通过“方向”,我们指的是非零向量w。

问题2:论文标题有点误导:“从前馈到GNN”暗示论文中还讨论了其他网络类型。

A2:很抱歉您感到困惑。标题是指在前馈网络模块上构建GNN的关系。在本文中,我们对前馈网络的分析(第3节)使我们对更复杂的GNN(第4节)有所了解。从这个角度来看,我们希望标题合适。如果您仍有疑问,请告诉我们。

我们很高兴回答您可能遇到的其他问题。

[–]

一篇有趣的论文,它打开了新的方向,可以更好地推断出我们目前有关深度学习的知识 

ICLR 2021会议论文700 AnonReviewer3

2020年10月27日(修改:2020年11月11日)ICLR 2021会议论文700官方评论读者: 大家

评论:

本文解决了一个具有挑战性的问题,即深度网络如何在其培训分布的支持范围之外学习如何推断知识。本文为新颖的理论论证以及针对目标案例的经验证据做出了贡献。与其他最近解决该问题的方法不同,这里介绍的理论分析不是渐近的,并且提供了有关MLP在训练区域附近可以学习的功能类型的精确信息。此外,作者提供了令人信服的论点,涉及需要在输入表示形式和/或模型体系结构中明确编码(特定于任务的)非线性,以促进成功的外推。总体而言,本文解决了重要问题,可以在深度学习研究的前沿进行考虑。该论文写得很好,并对最近的文献进行了适当的回顾。有鉴于此,我认为该文件将使ICLR社区感兴趣。但是,我想明确指出,我无法仔细检查附录中报告的所有详细信息和证明,对于ICLR论文来说,篇幅非常长(近40页)。

可能的改进意见:

  • 附录D.3 / C.4中报告的有关具有不同激活函数(正弦,正切,二次方)的MLP的外推能力的分析是相关的,应予以强调。例如,可以通过考虑正文中分析的一些数据生成任务来扩展它们。
  • 将分析扩展到MLP无法适当推断的其他简单问题将非常有趣。我具体指的是在[1]中讨论的简单计数和算术任务,其中训练分布之外的泛化是通过向网络中添加临时门单元来实现的。鉴于作者在论文的开头句子中提到了算术,我认为这个领域在这里特别重要。

[1] A. Trask,F。Hill,S。Reed,J。Rae,C。Dyer和P. Blunsom,“神经算术逻辑单元”,arXiv:1808.00508,2018年。

评分:8:接受论文的前50%,明确接受

信心:4:审阅者有信心,但不能绝对确定评估是否正确

[–]

我们的回应 

ICLR 2021会议论文700位作者

2020年11月21日ICLR 2021会议论文700官方评论读者: 大家

评论:

多谢您的宝贵意见。

我们在第3.3节中对具有tanh,二次方和余弦激活函数的MLP添加了附加实验。我们探索了这些MLP在我们用于ReLU MLP的任务上的外推能力。通常,MLP更好地外推涉及与MLP激活“相似”的非线性的函数,例如,当学习二次函数时,二次MLP可以很好地外推。我们将进一步的理论分析留给未来的工作。

感谢您指出我们先前关于算术任务和神经算术逻辑单元(NALU)的工作。它们的确确实相关。在第4.1节中,我们将使用理论结果来对NALU为何有助于算术任务进行外推提供潜在的解释。为了学习乘法,NALU在体系结构中编码对数和展开非线性变换。由于log(a * b)= log a + log b,因此该变换将乘法减少为线性函数,这有助于遵循我们的线性算法比对假设进行推断。为了改善学习加法运算,他们提出了稀疏性约束,这超出了本文的范围。

我们很高兴回答您可能遇到的其他问题。