opentopia openai主页
近日,哈佛大学的研究者于一篇论文中揭露了一个令人注目的现象——在、ResNet和transformer等深度学习模型中,存在一种名为“二次下降”(double descent)的特殊趋势:
随着模型规模的扩大、数据量的增加或训练时间的延长,模型的性能并非持续提高,而是先扬后抑,再扬起。这一下降-提升-再下降的过程已为实验所证实。
为避免这种现象,研究者们常常借助正则化技术。尽管该行为颇为常见,但其背后的成因却尚未完全揭晓。这一领域仍有许多研究的空间。
研究显示,在未采用提前停止或未使用正则化处理的情况下,多种现代深度学习模型如、ResNet和transformers等均表现出这种double descent现象。在模型适应“关键状态”时,这一现象尤为显著,这时模型的测试误差出现峰值。
传统上,统计学家认为模型规模过大可能会导致性能下降,然而现代的机器学习范式则倾向于更大的模型表现更佳。这种双重下降现象的出现似乎打破了这一常规观念。
令人惊讶的是,该现象在数据量过大的情况下反而可能导致更多的数据受损。例如,在更大的训练集上训练一个深度网络,其效果可能不如预期的那样好。研究还发现,当标签噪声被引入时,这种double descent现象会变得更加明显。
在长时间的训练过程也会影响过拟合现象的转变。随着训练的进行,测试和训练误差呈现epoch-wise的double descent趋势。研究者观察到,当模型接近插值阈值时(即模型尺寸和训练集达到一个“默契”的状态),测试误差往往会达到峰值。
目前研究者们尚无定论关于这种双降机制的起源。这不仅仅是一个学术上的开放问题,同时也是深度网络研究中的一个重要议题。对于网络的这一复杂行为的理解仍有待加深。
为了鼓励更多的人才投身于机器学习和人工智能的研究与应用,[视频点击预测大赛]正在火热进行中。我们提供了3万元奖金、以及实习和就业机会等丰厚的奖励。无论您是个人、高等院校、科研单位还是互联网企业、创业团队或学生社团等人员,都欢迎您加入我们的竞赛队伍。赛题围绕着利用用户信息和视频信息预测视频观看率而展开。欢迎大家积极报名参加。