Hidden Decoding: 在预训练中扩展序列长度
在之前的博客中,我们以 WeLM-V4-80B-A3B 为例介绍了预训练环节的架构设计与实践经验。本文旨在介绍一条不同的模型能力提升路径–在不增加 Transformer 主体参数的前提下,通过复制多份 Vocab Embedding 将序列长度扩展 n 倍,使每个 token 在单次前向传播中获得 n 倍的有效计算量。在多个模型规模的实验中,该方法带来了持续的 loss 下降与评测提升,且在较大规模的模型上仅需少量 continue training 步数即可观察到显著收益。 我们已经在Hugging Face开源了基于Qwen3-8B的Dense模型,同时大家可以参考GitHub进行SGLang本地部署。 动机 在序列建模中,模型中间状态(Hidden States)的表达能力决定了模型最终的效果。在模型规模相同的情况下,增加模型的中间状态往往会得到更优的模型效果。例如,采用更窄而深的模型结构 (Kim et al.
阅读全文