对比实验数据。
二十层、三十层、四十层、五十层,精度曲线一路攀升,没有出现以往深层网络必然遭遇的性能坍塌。
“以前整个学术界都默认,网络超过二十层就没法有效训练了。这个假设,被我们推翻了。”
顾屿靠在椅背上,目光停留在屏幕上那条稳步上升的曲线上。
他没说话。
不是因为震惊。而是因为他太清楚这个东西是什么了。
残差网络。ReSNet。
前世,这篇论文在2015年12月发表,第一作者正是任少卿。
它不仅横扫了当年所有计算机视觉的顶级竞赛,更从根本上改写了整个深度学习的工程范式。
从此以后,“网络可以无限加深”不再是空想,而是被数学和实验双重验证的事实。
它是后来所有大模型架构的地基之一。
没有残差连接,就没有后来的GPT,没有BERT,没有任何你能叫得出名字的大语言模型。
而现在是2014年4月。
任少卿提前了将近一年半。
顾屿闭上眼睛。
前世的记忆潮水般漫上来,不受控制。
2020年。他拿到天使轮的那个夏天,北京五道口的一间地下室办公室,八个人,六台电脑,空调坏了三天没人修。
他站在白板前画TranSfOrmer的架构图,给团队讲什么是自注意力机制,什么是多头注意力,什么是位置编码。那时候他以为自己看到了未来。
2022年。A轮融资到账,团队扩到四十多人,搬进了望京的写字楼。
他们基于TranSfOrmer训练中文大语言模型,做垂直行业应用,对标ChatGPT。烧了两个多亿,模型效果勉强能打。投资人说,再坚持一轮,B轮估值翻三倍,上市不是梦。
他信了。
然后2024年底,DeepSeek的技术报告发了出来。
不到六百万美金的训练成本。
用了一种叫MOE的混合专家架构,让模型学会了“只激活需要的那部分参数”,不用的部分直接休眠。
配合极致的底层算力优化和开源策略,效果直接对标上亿美金训练出来的顶级模型。
一夜之间,他那套靠堆参数、堆数据、堆算力硬撑出来的商业故事,全部归零。
投资人撤资的邮件是凌晨两点发来的,措辞
…。。本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。
Copyright © 2020 人本书院 All Rights Reserved.kk