DeepSeek在下一代人工智能模型中首次引入“稀疏注意力”机制

新浪财经 2025-09-30 03:49:54

DeepSeek周一更新了一个实验性的人工智能模型,并称之为迈向新一代架构的中间步骤。

DeekSeek在HuggingFace上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeekSparseAttention的“稀疏注意力机制”,该公司还暗示正在与芯片制造商合作开发该模型。

今年早些时候,DeepSeek的R1模型以其精妙的算法震惊硅谷,如今该公司正致力于开发新产品。最新版本在V3.1的基础上,引入旨在探索和优化人工智能训练和运行的机制。该公司表示,此举的目的是对长文本的训练和推理效率进行探索性的优化和验证。

与其他AI初创公司一样,DeepSeek也试图通过降价来吸引用户。该公司称,将把开发者调用DeepSeekAPI的成本降低50%以上。

1 阅读:206

评论列表

为快乐干杯

为快乐干杯

1
2025-09-30 14:18

换个新词就开创了什么先河似的,[抠鼻],大家谁不知道抖音早就利用你观看视频的人工智能算法来判断你对视频的喜好了,这不就是稀疏注意力吗

为快乐干杯 回复 09-30 15:42
我也不想反驳你,技术这种东西我只看结果,这就像某米说他的手机技术能力都超过了某果一样的,人家十七你也跳过十六变成十七这就是所谓的对标[抠鼻],表面的东西永远就是表面,真家伙就是要像F16经过战场验证的,嘴巴里纸上都能表达我是第一也可以说你是第一……多的不说了

文在 回复 为快乐干杯 09-30 16:25
照这么说,歼20不见得比歼10C强,因为他未经实战验证,只是吹出来的五代机?技术的前沿从来都是少数人探索的领域,一篇论文都没完整读完的人瞎谈什么技术啊