DeepSeek推出NSA,用于超快速的长上下文训练和推理

2025-2-18 16:50| 发布者: 仟茂传媒| 查看: 1520| 评论: 0|来自: 和讯财经

摘要: 格隆汇2月18日丨DeepSeek推出NSA。DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现

  格隆汇2月18日丨DeepSeek推出NSA。DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。

(责任编辑:宋政 HN002)

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com


鲜花

握手

雷人

路过

鸡蛋