第623章前世的终局与今生的起手_高二分科，我选校花也选亿万身家

对比实验数据。

二十层、三十层、四十层、五十层，精度曲线一路攀升，没有出现以往深层网络必然遭遇的性能坍塌。

“以前整个学术界都默认，网络超过二十层就没法有效训练了。这个假设，被我们推翻了。”

顾屿靠在椅背上，目光停留在屏幕上那条稳步上升的曲线上。

他没说话。

不是因为震惊。而是因为他太清楚这个东西是什么了。

残差网络。ReSNet。

前世，这篇论文在2015年12月发表，第一作者正是任少卿。

它不仅横扫了当年所有计算机视觉的顶级竞赛，更从根本上改写了整个深度学习的工程范式。

从此以后，“网络可以无限加深”不再是空想，而是被数学和实验双重验证的事实。

它是后来所有大模型架构的地基之一。

没有残差连接，就没有后来的GPT，没有BERT，没有任何你能叫得出名字的大语言模型。

而现在是2014年4月。

任少卿提前了将近一年半。

顾屿闭上眼睛。

前世的记忆潮水般漫上来，不受控制。

2020年。他拿到天使轮的那个夏天，北京五道口的一间地下室办公室，八个人，六台电脑，空调坏了三天没人修。

他站在白板前画TranSfOrmer的架构图，给团队讲什么是自注意力机制，什么是多头注意力，什么是位置编码。那时候他以为自己看到了未来。

2022年。A轮融资到账，团队扩到四十多人，搬进了望京的写字楼。

他们基于TranSfOrmer训练中文大语言模型，做垂直行业应用，对标ChatGPT。烧了两个多亿，模型效果勉强能打。投资人说，再坚持一轮，B轮估值翻三倍，上市不是梦。

他信了。

然后2024年底，DeepSeek的技术报告发了出来。

不到六百万美金的训练成本。

用了一种叫MOE的混合专家架构，让模型学会了“只激活需要的那部分参数”，不用的部分直接休眠。

配合极致的底层算力优化和开源策略，效果直接对标上亿美金训练出来的顶级模型。

一夜之间，他那套靠堆参数、堆数据、堆算力硬撑出来的商业故事，全部归零。

投资人撤资的邮件是凌晨两点发来的，措辞

…。。
　　本章没完，请点击下—页继续阅读！如果被转码了请退出转码或者更换浏揽器即可。
　　温馨提示：亲爱的读者，如果你觉得本站还好，为了避免丢失和转马，请勿依赖搜索访问，建议你使用[华为刘揽器]或[Firefox火狐刘揽器]访问并收蔵【人本书院】 m.rbcnw.com。我们将会持续为你更新，还建议你注册会员使用书架功能追书阅读更方便。

第623章 前世的终局与今生的起手

看了《高二分科，我选校花也选亿万身家》的书友还喜欢看

第623章前世的终局与今生的起手