技术文摘 - 程序员工具箱

RWKV-8 系列之 DeepEmbedAttention：精简 KV 缓存，尤其适合混合模型

来自：www.oschina.net 收录时间：2025-06-30

5 月 27 日，我们公开了 RWKV-8 首个新特性 DeepEmbed：对端侧友好的稀疏设计，解决 MoE 显存占用。今天，我们公开与其相关的另一个新特性：DeepEmbedAttention（DEA），这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型（例如后续的 RWKV-7s 混合模型），可将它们的长...

阅读更多