WeLM Blog

发布于 2026-01-31

初探 WeLM-258B MOE 模型后训练

本文以上一代模型 WeLM-V3-258B-A22B 为例，分享了团队在后训练阶段的流程与关键实践。

阅读全文

发布于 2026-01-21

本文分享我们在有限资源下构建高效预训练大语言模型（LLM）的实践经验与观察。我们展示了在不足 14T tokens 的语料上训练出的 80B-A3B MoE 模型，其性能在同量级乃至更大规模系统中均极具竞争力；同时，通过深度扩展（Depth Up-Scaling）获得的 130B 变体，在低学习率下经过少量追加训练，便能相较于 80B 基准模型取得显著的性能提升。 1. 架构新的 WeLM 系列采用高度稀疏的 MoE（Mixture of Experts）架构 (Shazeer et al. 2017; Fedus et al.

阅读全文

研究笔记与系统设计简报。

初探 WeLM-258B MOE 模型后训练

以适度资源构建高效稀疏 MoE 模型