平台研究笔记

最近更新 | 2026-03-02

研究笔记与系统设计简报。

由微信 AI 团队发布。

发布于 2026-03-02

Hidden Decoding: 在预训练中扩展序列长度

在之前的博客中,我们以 WeLM-V4-80B-A3B 为例介绍了预训练环节的架构设计与实践经验。本文旨在介绍一条不同的模型能力提升路径–在不增加 Transformer 主体参数的前提下,通过复制多份 Vocab Embedding 将序列长度扩展 n 倍,使每个 token 在单次前向传播中获得 n 倍的有效计算量。在多个模型规模的实验中,该方法带来了持续的 loss 下降与评测提升,且在较大规模的模型上仅需少量 continue training 步数即可观察到显著收益。 我们已经在Hugging Face开源了基于Qwen3-8B的Dense模型,同时大家可以参考GitHub进行SGLang本地部署。 动机 在序列建模中,模型中间状态(Hidden States)的表达能力决定了模型最终的效果。在模型规模相同的情况下,增加模型的中间状态往往会得到更优的模型效果。例如,采用更窄而深的模型结构 (Kim et al.

阅读全文
发布于 2026-01-21

以适度资源构建高效稀疏 MoE 模型

本文分享我们在有限资源下构建高效预训练大语言模型(LLM)的实践经验与观察。我们展示了在不足 14T tokens 的语料上训练出的 80B-A3B MoE 模型,其性能在同量级乃至更大规模系统中均极具竞争力;同时,通过深度扩展(Depth Up-Scaling)获得的 130B 变体,在低学习率下经过少量追加训练,便能相较于 80B 基准模型取得显著的性能提升。 1. 架构 新的 WeLM 系列采用高度稀疏的 MoE(Mixture of Experts)架构 (Shazeer et al. 2017; Fedus et al.

阅读全文