八度小说

字:
关灯 护眼
八度小说 > 高二分科,我选校花也选亿万身家 > 第623章 前世的终局与今生的起手

第623章 前世的终局与今生的起手(2/3)

、三十层、四十层、五十层,精度曲线一路攀升,没有出现以往深层网络必然遭遇的性能坍塌。

    “以前整个学术界都默认,网络超过二十层就没法有效训练了。这个假设,被我们推翻了。”

    顾屿靠在椅背上,目光停留在屏幕上那条稳步上升的曲线上。

    他没说话。

    不是因为震惊。而是因为他太清楚这个东西是什么了。

    残差网络。ReS。

    前世,这篇论文在2015年12月发表,第一作者正是任少卿。

    它不仅横扫了当年所有计算机视觉的顶级竞赛,更从根本上改写了整个深度学习的工程范式。

    从此以后,“网络可以无限加深”不再是空想,而是被数学和实验双重验证的事实。

    它是后来所有大模型架构的地基之一。

    没有残差连接,就没有后来的GPT,没有BERT,没有任何你能叫得出名字的大语言模型。

    而现在是2014年4月。

    任少卿提前了将近一年半。

    顾屿闭上眼睛。

    前世的记忆潮水般漫上来,不受控制。

    2020年。他拿到天使轮的那个夏天,北京五道口的一间地下室办公室,八个人,六台电脑,空调坏了三天没人修。

    他站在白板前画TranSformer的架构图,给团队讲什么是自注意力机制,什么是多头注意力,什么是位置编码。那时候他以为自己看到了未来。

    2022年。A轮融资到账,团队扩到四十多人,搬进了望京的写字楼。

    他们基于TranSformer训练中文大语言模型,做垂直行业应用,对标ChatGPT。烧了两个多亿,模型效果勉强能打。投资人说,再坚持一轮,B轮估值翻三倍,上市不是梦。

    他信了。

    然后2024年底,deepSeek的技术报告发了出来。

    不到六百万美金的训练成本。

    用了一种叫moE的混合专家架构,让模型学会了“只激活需要的那部分参数”,不用的部分直接休眠。

    配合极致的底层算力优化和开源策略,效果直接对标上亿美金训练出来的顶级模型。

    一夜之间,他那套靠堆参数、堆数据、堆算力硬撑出来的商业故事,全部归零。

    投资人撤资的邮件是凌晨两点发来的,措辞很客气,意思很残忍:赛道逻辑变了,我们需要重新评估。

    客户解约的电话是第二天早上九点打来的,对方甚至没听他解释完,只说了一句“deepSeek免费开源的效果比你们收费的还好,我们没有理由继续付费”。

    团队散伙那天,核心算法工程师把工牌放在会议桌上,什么都没说,转身走了。

    门没关严,走廊里传来的声音很轻,但顾屿听得清清楚楚。

    2025年春天,公司清算完毕。

    他在锦城的出租屋里,盯着天花板上那道裂缝,想了很久很久。

    然后他重生了。

    所以他对AI这条路的理解,从来不是什么“前瞻性预判”。

    他是亲手走过那条路上的每一步,踩过每一个坑,最后被终局的浪头拍死的人。

    他知道训练大模型时候学习率该怎么调。

    知道RLHF的人类反馈强化学习有多少坑。

    知道moE的路由策略为什么能把成本打下来。

    这些知识是他的武器,也是他的伤疤。

    前世他死在三件事上:起步太晚,资本不够,算力受制于人。

    这一世,全都翻过来了。

    雅安基地的算力,够。

    百亿级的资金储备,够。

    任少卿加九章团队的人才密度,够。

    而任少卿刚才摆在他面前的这份残差网络实验数据,证明了一件更关键的事情:

    这个时代的硬件和人才,已经具备了从卷积神经网络向更通用架构跃迁的基础条件。

    前世,全世界花了整整三年,才从2014年注意力机制的萌芽走到2017年TranSformer论文的发表。

    但这一世,他不打算走硅谷那条“有钱就是任性”的老路了。

    不堆参数,不烧天价算力,不做那头笨重的大猪。

    他要走deepSeek的路。

    用最少的资源,做最聪明的架构。

    让模型学会自己选择、自己推理、自己纠错。

    用moE让参数按需激活,用极致的工程优化把每一滴算力都拧干。

    前世deepSeek做到了,但它来得太晚,他的公司已经死了。

    这辈子,他要自己做这件事。

    从头做。

    顾屿缓慢地睁开眼睛,视线重新聚焦在屏幕上那条安静攀升的精度曲线上。

    任少卿还在旁边等着他的反应,大概以为老
本章未完,请点击下一页继续阅读》》
『加入书签,方便阅读』
内容有问题?点击>>>邮件反馈