DeepSeek突然拥抱国产GPU语言国产TileLang火了开发者直呼优雅De

量子位看科技 2025-09-30 09:37:18

DeepSeek突然拥抱国产GPU语言国产TileLang火了开发者直呼优雅

DeepSeek v3.2有一个新改动，在论文里完全没提，只在官方公告中出现一次，却引起墙裂关注。

开源TileLang版本算子，其受关注程度甚至超过新稀疏注意力机制DSA，从画线转发的数量就可以看出来。【图1】

海外社区也注意到DeepSeek使用了它而不是OpenAI开发的Triton语言。

有接触过的开发者感叹TileLang是一种非常优雅的语言，只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现。【图2】

那么什么是TileLang，又为何引人瞩目？

首先，TileLang是一种专门用来开发GPU内核的领域专用语言，性能上可以对标英伟达CUDA，DeepSeek官方推荐使用此版本做实验，在方便调试和快速迭代上有优势。

更重要的是，TileLang与国产算力生态适配，连华为昇腾都要在第一时间公告对TileLang的支持。【图3】

在几周前的华为全联接大会2025的开发者日上，TileLang团队成员董宇骐就介绍了TileLang实现FlashAttention算子开发，代码量从500+行减少至80行，并保持了与官方版本持平的性能。

此外TileLang团队成员王磊和沐曦集成电路的高级总监董兆华也在同一个圆桌沙龙上出现过，讨论了沐曦GPU与TileLang的适配。

DeepSeek与TileLang第一次同框亮相，其实是在6月的北京智元大会。

在DeepSeek实习过的北大博士袁境阳，在报告中就提到"TileLang的算子实现会更快一点"。

TileLang的发起人之一，北大博士研究生王磊当时还专门发帖感谢DeepSeek尝试他们的语言。【图4】

TileLang由北大团队主导开发，核心人物除了王磊、董宇骐，还有北大计算机学院的副研究员、博士生导师杨智。【图5】

2025年1月，TileLang在GitHub上正式开源，至今已获得1.9k标星。【图6】

简单来说，Tile语言 ( tile-lang ) 是一种简洁的领域专用语言，旨在简化高性能 GPU/CPU 内核的开发。tile-lang采用Python式语法，并在TVM之上构建底层编译器基础架构，使开发者能够专注于提高生产力，而无需牺牲实现最佳性能所需的底层优化。【图7】

王磊曾在7月HyperAI超神经主办的Meet AI Compiler技术沙龙分享TileLang的核心设计理念：

将调度空间（包括线程绑定、内存布局、张量化和流水线等）与数据流解耦，并将其封装为一组可自定义的注解和原语。这种方法允许用户专注于内核的数据流本身，而将大部分优化工作交给编译器完成。

TileLang将"Tile"作为编程模型的核心概念，通过显式的Tile抽象，让开发者能够直观地控制数据在全局内存、共享内存和寄存器之间的流动。

TileLang提供了三个不同层次的编程接口，满足不同水平开发者的需求。

初学者可以使用硬件无关的高层接口，专注于算法逻辑而不必关心底层细节。

有经验的开发者可以使用ile Library，这里包含了各种针对不同硬件架构优化过的预定义操作。

对于追求极致性能的专家用户，TileLang还提供了线程原语级别的控制，允许他们直接操作线程同步、内存合并等底层特性。【图8】

DeepSeek显然就属于追求极致性能的专家用户了，根据v3.2公告的说法，在早期DeepSeek团队使用TileLang快速开发原型，之后用更底层的方法进一步优化性能。

v3.2论文中提到在内核层面共享k-v提升计算效率，让DSA的闪电索引器机制（lightning indexer）运行速度远超传统实现。【图9】

在TileLang的文档中也有相关的技术介绍，在计算过程中缓存中间数据，比全局内存快得多。【图10】

更早之前，在DeepSeek连续一周发布开源代码库的第一天，王磊就曾向DeepSeek团队推荐TileLang语言。【图11】

后来TileLang也以DeepSeek在这天发布的FlashMLA内核作为评测基准，在H100上的MLA解码速度，TileLang编写的内核做到与FlashMLA相当。【图12】

在最新的DeepSeek v3.2发布之后，王磊也发帖致敬DeepSeek敢于使用一门新的编程语言来开发核心产品。

并且DeepSeek v3.2也验证了TileLang确实可以用来训练模型。【图13】

DeepSeek V3.2技术报告：

TileLang：

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

谢赛宁回应DiT争议DiT架构真的错了吗最近X上有人抛出一句话：DiT（Scal

2

马斯克点评AI大战年度AI聊天机器人排名马斯克发图点评AI大战：“谁会赢下AI技

3

小扎亿元俱乐部刚组就被拆Meta千人AI团队面临裁员疯狂扎克伯克，有点太猛了。6

4

思维链可无限延伸了MIT等打破大模型上下文天花板大模型的记忆墙，被MIT撬开了一

5

英伟达最新芯片B30A曝光英伟达又爆新AI芯片最新消息，英伟达正在开发新的AI芯

6

谷歌悄悄放出超强图像编辑模型上传图像AI秒变手办谷歌（疑似）上线了图像编辑模型N

7

DeepSeek新模型V3.1上线DeepSeek升级至V3.1官方最新消息！D

8

用AI复刻一个你AI离复制人格还有多远一个由斯坦福、DeepMind等研究机构，

9

奥特曼承认GPT5搞砸了奥特曼谈GPT5翻车奥特曼终于承认他搞砸了。要说最近AI

10

首个3D动作游戏专用AI模型AI打黑神话只狼超越人类玩家专为3D动作游戏设计的A

热门分类

科技TOP

1

微信员工回应新iPhone提示空间不足早之前就有网友出现这个问题，要是还解决不了

2

OPPOFindX9的屏幕，由两条顶级产线共炼：第一条，OPPO独家定制行业

3

翻开王腾过去从业史，在好几家手机品牌都干过，在OPPO从2008年一直到2016

4

离职前，OPPO产品经理莫妮卡与客户网友的同框合影照。莫妮卡不仅漂亮清爽，还亲切

5

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

6

重磅！华为公布多颗新昇腾芯片9月18日，在华为全连接大会2025上，华为轮值

7

4499起步倒不算意外，但小米17Pro是4999起步倒是挺意外的。骁龙8

8

这么一比，谁说FindX9不好看的...OPPOFindX9的官方外观

9

iPhone17，终于亮相。今年的颜色都还不错呀，造型就是跟16基本一样。屏

10

一张X300和X200Promini的背面对比图，可以看到X300的大圆镜头比

科技最新文章

1

余承东今天是双喜临门，不仅获得晋升，出任IRB主任，鸿蒙系统5终端装机量

2

一张X300和X200Promini的背面对比图，可以看到X300的大圆镜头比

3

5年过去了，华为旗舰首发依然没有涨价。5年过去了，从mate40到现在的Ma

4

关于华为Mate80系列大家更期待什么？1、麒麟90302、HarmonyO

5

估计余承东后槽牙都要咬碎了他想破脑袋也没想到自己堂堂的高考理科状元，竟然被人

6

有“高人”指点荣耀。荣耀推出“后悔宝”，让用户毋庸担心后悔购买搭载骁龙8ge

7

比芯片断供更可怕！台积电创始人张忠谋毫不客气地表示：“关键技术都在我们手中，若我

8

多人都在期待华为Mate系列。根据目前的的网络爆料来看，华为Mate80系列预

9

荣耀500系列杀疯了！“果味”配置直接卷到天花板荣耀500系列前瞻来了，耀子这

10

今天去体验了下小米最新款，除了系统，就连UI，手感，颜值都很像iPhone，这是