周二,当全球目光聚焦于马斯克Grok-3的庞大GPU集群时,中国大模型公司正在技术创新的道路上默默加速。先是DeepSeek提出了原生稀疏注意力(NativeSparseAttention,NSA)机制。这项梁文锋亲自参与的研究成果,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。NSA不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型的性能反超。这一突破表明,通过算法和硬件层面的协同创新,可以在不牺牲模型性能的前提下,显著提升长文本处理效率。
紧随DeepSeek的步伐,Kimi也迅速推出了自家的稀疏注意力技术——MoBA(MixtureofBlockAttention)。据这份由月之暗面、清华大学和浙江大学的研究人员共同发布的技术报告《MOBA:MIXTUREOFBLOCKATTENTIONFORLONG-CONTEXTLLMS》,MoBA的设计理念是将全上下文划分为多个块,每个查询令牌(querytoken)学习关注最相关的键值(KV)块,从而实现对长序列的高效处理。与DeepSeek创始人梁文锋参与著作一样,月之暗面创始人杨植麟的名字也出现这篇论文的作者栏里。据论文介绍,在各种长文本处理任务中,采用MoBA技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在1Mtoken的测试中,MoBA比全注意力快了6.5倍,在处理超长文本(如1000万token)时,MoBA的优势更加明显,可以实现16倍以上的加速。
MoBA的核心创新点包括:可训练的块稀疏注意力:全上下文被划分为多个块,每个查询令牌学习关注最相关的KV块,实现长序列的高效处理。无参数门控机制:引入了一种新颖的无参数top-k门控机制,为每个查询令牌选择最相关的块,确保模型只关注信息量最大的部分。全注意力和稀疏注意力之间的无缝切换:MoBA被设计为全注意力的灵活替代品,允许在全注意力和稀疏注意力模式之间无缝切换。在处理超长文本时,MoBA可以实现16倍以上的加速。
在多个方面对MoBA进行了实验验证:缩放定律实验(ScalingLawExperiments):实验表明,尽管MoBA的注意力模式稀疏度高达81.25%,但其在语言模型损失方面的表现与全注意力相当。长文本缩放能力(LongContextScalability):通过增加序列长度到32K,MoBA的稀疏度进一步提高到95.31%。实验表明,MoBA在处理长文本时,其性能与全注意力之间的差距逐渐缩小。细粒度块分割消融研究(AblationStudyonFine-GrainedBlockSegmentation):实验表明,更细粒度的块分割可以进一步提高MoBA的性能。MoBA与全注意力的混合训练(HybridofMoBAandFullAttention):实验表明,通过混合使用MoBA和全注意力进行训练,可以在训练效率和模型性能之间取得平衡。大型语言模型评估(LargeLanguageModelingEvaluation):在多个真实世界的下游任务中,MoBA的表现与全注意力模型相当,甚至在某些任务上略有优势。效率和可扩展性(EfficiencyandScalability):实验表明,MoBA在处理长序列时比全注意力更高效,计算复杂度为亚平方级。
在1Mtoken的测试中,MoBA比全注意力快了6.5倍,在处理1000万token的序列时,MoBA的注意力计算时间减少了16倍。本文来自华尔街见闻,欢迎下载APP查看更多。
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:975644476@qq.com
本文链接:http://chink.83seo.com/news/7124.html