发布时间:2026-03-17 已有: 位 网友关注
币界网消息,据 1M AI News 监测,月之暗面发布 Attention Residuals 技术报告,提出用注意力机制替代 Transformer 中固定的残差连接,在 Kimi Linear 48B 模型上可等效多用 25% 算力、推理延迟增加不到 2%。Elon Musk 昨晚在 X 发文「Impressive work from Kimi」,月之暗面官方今日在微博上回应「你的火箭造得也不错!」。这条推文也将讨论引向论文的联合一作之一:陈广宇,今年 17 岁,目前仍在读高中。论文另两名联合一作为 RoPE提出者苏剑林,以及 Kimi Linear 第一作者张宇。陈广宇于 2025 年 11 月加入月之暗面,GitHub 上的 Flash Linear Attention 开源项目是他入门机器学习的起点。陈广宇本人也在 X 上回应外界讨论,称这样一篇「算法和 infra codesign,同时实验和理论都有补充的 paper 是不太可能一个人写出来的」,Kimi 团队大家都有投入,Yu Zhang 与苏剑林也都是 equal contributor,提醒大家「不要相信谣言」。陈广宇本人领英主页显示,其就读学校为惠州贝赛思。Moonshot Academy 是 2025 年 3 月举办「Moonshot 48」高中生黑客松的主办方,陈广宇在该活动中获得冠军。