八度小说

字:
关灯 护眼
八度小说 > 高二分科,我选校花也选亿万身家 > 第622章 深度学习变天了

第622章 深度学习变天了(2/3)

  假设网络有两层,输入是X,经过两层运算之后的输出是F(X)。正常做法是直接用F(X)往下传。

    但他的想法是,不要让网络去学习F(X)这个完整的映射,而是让它只学习F(X)和X之间的差值,也就是F(X)-X。最终输出变成F(X)+X。

    这个“+X”就是捷径。

    就是残差连接。

    它的意义在于,哪怕F(X)学废了,输出至少还有一个X兜底,不会比什么都没学更差。

    更关键的是,梯度可以沿着这条捷径直接回传到前面的层,不用再经过所有中间层的连乘衰减。

    梯度消失的问题,被这条捷径绕过去了。

    他当天晚上就写了代码。

    第二天跑了一个二十层的测试。

    然后是三十层。四十层。精度不仅没有下降,还在持续攀升。

    他又花了两周时间反复验证,排除过拟合、数据泄漏等一切干扰因素。

    最后把层数推到了五十。

    5.08%。

    和人类标注员打了个平手。甚至略微超过。

    任少卿睁开眼睛,盯着天花板看了很久。值班间的日光灯管有一根坏了,一明一暗地闪着。

    “少卿哥,这个结果……”

    陈立秋把擦了无数遍的眼镜重新戴好,声音压得很低,

    “能发顶会吧?”

    “不止能发。”

    郑宇航已经从最初的激动中回过神来了,他盯着屏幕上的损失曲线,

    “这东西要是公开出去,整个领域都得重新洗牌。以前大家默认深层网络没法训练,所有人都在十几二十层的范围里卷。现在这个假设直接被推翻了。”

    任少卿没说话。

    他站起来,走到机房那面闪烁的绿色光墙前面,双手插在冲锋衣口袋里。

    兴奋吗?当然兴奋。

    但兴奋过后,一种更复杂的情绪开始往上涌。

    他想起去年在西安交大走廊里,那个黄毛少年对他说的话。

    “你的模型在做大量无效计算。”

    “让模型只用它需要用的那部分脑子去思考。”

    当时他以为那只是一个外行的模糊直觉。

    但现在他回过头来看,那个十八岁的少年说的每一句话,都精准地指向了这个领域未来五到十年的核心命题。

    残差连接解决了深层网络的训练问题。

    但那个少年想要的,显然不止于此。

    任少卿盯着那面光墙,脑子里像打开了一扇被堵住很久的门。

    五十层的残差网络证明了一件事:网络可以做得很深,深度不再是瓶颈。

    那下一个瓶颈是什么?

    他几乎是本能地想到了那个词。

    宽度。

    或者更准确地说,视野。

    卷积网络的每一层只能看到一个局部窗口。

    三乘三,五乘五,最大也就七乘七。哪怕你把网络堆到一百层,每一层看到的依然是一小块局部区域。

    它通过层层叠加来扩大感受野,但这种扩大是间接的,是逐层递推的,不是一步到位的。

    如果数据不是图片呢?

    如果是一段文字,一个句子,一篇文章?

    文字里的语义关联可以跨越整个句子。

    第一个字和最后一个字之间可能存在关键的依赖关系。卷积核看不到那么远。

    循环神经网络可以看到,但它是串行的,一个字一个字往后递,速度慢得要命,而且同样存在梯度消失。

    只不过是时间维度上的梯度消失。

    那如果……

    任少卿摇了摇头,把这个念头暂时压下去。

    他现在面前摆着一堆更紧迫的问题。

    论文要不要写?投哪个会议?实验还需要补哪些对照组?

    一百层的网络还没跑,一百五十层呢?

    目标检测任务上的迁移效果怎么样?

    另外,残差连接这个结构目前只在图像分类上验证过。

    要推广到其他任务、其他数据类型,工作量巨大。

    他手上就两个师弟,根本忙不过来。

    这些问题每一个都很具体,每一个都需要人手、时间和资源。

    “少卿哥。”

    郑宇航不知道什么时候走到他旁边来了,手里端着两杯速溶咖啡,递了一杯过来,

    “你是不是该跟上面汇报一下了?”

    任少卿接过咖啡,没喝。

    “上面”。在这个基地里,“上面”这个词只指向一个人。

    他入职快半年了,跟那个黄毛少年只见过一次面。

    日常工作对接的是林溪和徐静。林溪管钱管人,徐静管硬件和基建。

    两个人都很专业,给他的自由度也大,基本上他要什么给什么,从来不问他每天具体在做什么。
本章未完,请点击下一页继续阅读》》
『加入书签,方便阅读』
内容有问题?点击>>>邮件反馈