差点错怪它,DeepSeek并没有使用蒸馏技术! 2025年春节前,DeepSeek-R1横空出世,不仅仅震撼了国人,也把国外的科技圈震得目瞪口呆,让美国人工智能霸权一夜之间归零。 当时哪怕搞技术的人,也几乎认为DeepSeek肯定使用了蒸馏技术,简而言之,是站在了巨人OpenAI的ChatGPT肩膀上,否则DeepSeek效果不会这么好,训练成本不会这么低。 可是,近日由DeepSeek团队完成的一篇论文登上著名期刊《Nature》封面,正面回应了有关模型蒸馏的质疑,那就是并没有使用蒸馏技术。 论文披露了模型训练的数据类型和一些技术细节,也确认了让人不可思议的极低的训练成本,但最让我吃惊的还是它并没有特意使用蒸馏技术。 想当初DeepSeek一问世,所谓蒸馏说甚嚣尘上,西方有些人就差直接说DeepSeek是小偷了。 现在DeepSeek团队直接在《Nature》期刊上发文,而且经过了同行的评审,是时候对它的蒸馏质疑说一声抱歉了!
差点错怪它,DeepSeek并没有使用蒸馏技术! 2025年春节前,DeepSe
冬雪覆千山
2025-09-20 23:34:05
0
阅读:37