平台研究笔记

最近更新 | 2026-01-21

研究笔记与系统设计简报。

由微信 AI 团队发布。

发布于 2026-01-21

以适度资源构建高效稀疏 MoE 模型

本文分享我们在有限资源下构建高效预训练大语言模型(LLM)的实践经验与观察。我们展示了在不足 14T tokens 的语料上训练出的 80B-A3B MoE 模型,其性能在同量级乃至更大规模系统中均极具竞争力;同时,通过深度扩展(Depth Up-Scaling)获得的 130B 变体,在低学习率下经过少量追加训练,便能相较于 80B 基准模型取得显著的性能提升。 1. 架构 新的 WeLM 系列采用高度稀疏的 MoE(Mixture of Experts)架构 (Shazeer et al. 2017; Fedus et al.

阅读全文