NSA
科技
馬斯克周二 (18 日) 發表 Grok-3,號稱「地球上最聰明 AI」,而近期爆紅的 DeepSeek 也沒閒著,在當天發表名為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的一項重要論文,介紹一種新的稀疏注意力機制(Natively Sparse Attention,NSA),用於提升長文本訓練和推理的效率,並具備硬體對齊和端到端訓練的特性。
A股
馬斯克 xAI 發布新一代聊天機器人 Grok 3 之後,DeepSeek 不甘示弱宣布推出用於超快速長文本訓練訓練與推理的「原生稀疏注意力」(Native Sparse Attention,簡稱 NSA)。DeepSeek 18 日在海外社交平台 X 上發佈了一篇純技術論文報告,稱 NSA 針對現代硬件進行了優化設計,能夠加速推理過程,同時降低預訓練成本,且不犧牲性能。
2025-02-20
2025-02-19