微信 AI 的 LLM 研究
以适度资源构建高效稀疏 MoE 模型
本页目录
本文分享我们在有限资源下构建高效预训练大语言模型(LLM)的实践经验与观察。我们展示了在不足 14T tokens 的语料上训练出的 80B-A3B MoE 模型,其性能在同量级乃至更大规模系统中均极具竞争力;同时,通过深度扩展(Depth Up-Scaling)获得的 130B 变体,在低学习率下经过少量追加训练,便能相较于 80B 基准模型取得显著的性能提升。
1. 架构
新的 WeLM 系列采用高度稀疏的 MoE(Mixture of Experts)架构 (Shazeer et al. 2017; Fedus et al. 2022)以提升训练与推理阶段的计算效率。MoE 层将 loss-free balance routing(无损均衡路由) (DeepSeek-AI et al. 2024) 与未归一化的 sigmoid gate 以及一个共享 expert (Dai et al. 2024) 结合起来。借鉴 Qwen 系列 (Team 2024),模型采用了更深层的网络,并通过结合 PostNorm 与 OutputNorm (Zhuo et al. 2025; Ding et al. 2021) 来稳定训练过程。
在注意力机制方面,模型采用了 Grouped-Query Attention(GQA) (Ainslie et al. 2023) 和 partial RoPE。我们将 attention head 的数量增加至标准配置的 3 倍,并配合 head-wise gating (Qiu et al. 2025) 使用,同时引入 KNorm (DeepSeek-AI 2024) 以稳定 attention logit。KV-Mirror 技术允许浅层与深层之间共享 hidden states 以生成 KV activation (Sun et al. 2024; Wu et al. 2024),可以在 prefill 阶段降低推理成本。模型还引入了 2-head over-encoding 模块,旨在不增加推理开销的同时降低训练 loss。此外,我们额外添加了一层 MoE 作为 Multi-Token Prediction(MTP)层 (Gloeckle et al. 2024),从而支持推理阶段的 speculative decoding (DeepSeek-AI et al. 2024)。WeLM-130B 变体基于 80B 基座模型,利用 Depth Up-Scaling (Kim et al. 2023) 技术构建,具体做法是将中间三分之一的层循环复制两次。
图 1:WeLM 架构概览
| 模型 | WeLM-80B | WeLM-130B |
|---|---|---|
| 总参数量 | 80B | 130B |
| 激活参数量 | 3B | 4.9B |
| Embedding 参数量 | 6.1B | 6.1B |
| MoE 层数 | 48 | 78 |
| MTP 层数 | 1 | 1 |
| 隐藏维度 | 2048 | 2048 |
| MoE 中间层维度 | 512 | 512 |
| Attention head 维度 | 256 | 256 |
| Attention head 数 | 24 | 24 |
| Key-Value head 数 | 2 | 2 |
| Expert 总数 | 512 | 512 |
| 每 token 激活的 expert 数 | 10 | 10 |
| 共享 expert 数 | 1 | 1 |
表 1:WeLM 的模型架构。激活/总参数量统计中不包含词向量(word embedding)与输出层(output layer)。
归一化
模型采用 partial PostNorm 来缓解深层网络中的 representation collapse (Zhuo et al. 2025)。在 attention 之前,我们同时对 residual 与 hidden states 做归一化;而在 MoE 层之前,仅对输入 hidden states 做归一化。对于 PostNorm 架构而言,对残差项(residual)进行归一化会使每一层的残差范数与 MoE/Attention 输出的范数处于同一量级,从而增加了残差总和的 RMS 降至极小值的风险。这会在后续 RMSNorm 的反向传播中触发异常的梯度放大,最终导致模型崩溃 (Zhuo et al. 2025)。为缓解该不稳定性,我们在 attention 输出处引入 OutputNorm (Ding et al. 2021),并采用较小的权重初始化,使得训练早期阶段可以更加稳定。
KV-Mirror
标准的 decoder-only LLM 架构 (Radford et al. 2019; Brown et al. 2020) 要求在 prefill 阶段完成所有层的计算,以生成后续解码所需的完整 KV cache。YOCO(Sun et al. 2024)表明,通过 self-decoder 结构让相邻的输出层复用浅层的 KV cache,可以在 prefill 阶段实现计算早退出(early exit),并在任意序列长度下将 prefill 计算量减少一半 。KVSharer 进一步指出,在差异度(divergence)更高的 attention 层之间进行 KV cache 共享能够获得更好的性能 (Wu et al. 2024)。
基于这些观察,WeLM 采用 U 形的 KV 共享策略:前 1/3 的层镜像到后 1/3(包括 MTP 层)。在实践中,我们不直接复用缓存的 K/V 张量,而是复用被镜像层在 K/V 投影前的 hidden states,并用目标层的投影重新计算 K/V。这种修改使镜像层能够表达不同的语义,同时也保留了 KV Cache 方法的提前退出能力,在我们的基准测试中取得了优于直接复用 K/V Cache 的结果。
具体而言,镜像层 i 会读取来自层 j 的、在 K/V 投影前保存的 hidden states,使用 W_i 做投影,并替换自身 QKV 中的 K/V 部分:
# 被镜像的层 j
save_hidden(j, h_j)
# 镜像层 i
K_i, V_i = W_i^{k,v} * h_j
# Q_i 按常规计算(略)
该方法在降低推理成本的同时,也抑制了深层的 attention-sink 现象。不过,我们发现将浅层 hidden states 进一步引入 Q-projection 的输入并没有带来可观测的改进。
Over-encoding
Over-encoding (Huang et al. 2025) 表明,在约束解码阶段总内存访问量的前提下,扩展输入词表能够稳定地带来性能提升。WeLM 采用 multi-head hashing 机制 (Svenstrup et al. 2017) 来缓解 n-gram 场景下的哈希冲突,从而在相对较小的词表规模约束下仍能取得有效表现。该技术在具有跨层 activation sharing 的架构(如 KV-Mirror)上表现出更强的效果。
实验
为了评估这些架构改动的单独与叠加效果,我们在一个缩小版的 MoE 配置上进行了系统的消融实验(总参数量 8.7B,激活参数量 0.7B)。表 2 总结的结果显示,随着各组件逐步加入,模型在英文与中文基准上均获得了稳定的提升。
消融结果
28 层,8.7B 参数,0.7B 激活参数,377B tokens,AdamW,batch size = 1024
| 方法 | 最大学习率 | MMLU | MATH | C-Eval | CMMLU |
|---|---|---|---|---|---|
| (1) Baseline | 8.0 x 10^-4 | 49.37 | 13.96 | 54.83 | 52.90 |
| (2) +KV-Mirror | 8.0 x 10^-4 | 53.29 | 16.8 | 56.82 | 58.06 |
| (3) +PostNorm and OutputNorm | 8.0 x 10^-4 | 55.32 | 17.38 | 58.78 | 60.83 |
| (4) +Over-encoding 3M | 8.0 x 10^-4 | 56.69 | 18.74 | 63.37 | 64.40 |
表 2:在 8.7B 配置上的消融结果。
为了进一步验证这些改动的可扩展性,我们将实验规模扩大到一个总参数量 30.7B、激活参数量 3B 的模型。表 3 显示,集成这些架构改进后,模型在覆盖语言理解、推理与编程等多类基准上均取得了显著提升。更广泛的评测也表明,小规模实验中观察到的收益能够有效迁移到更大规模的模型变体中。
| 基准(指标) | # Shots | 30B Baseline | 30B Proposed |
|---|---|---|---|
| 激活参数量 | - | 3B | 3B |
| 总参数量 | - | 30.7B | 30.7B |
| Embedding 参数量 | - | 0.32B | 3.39B |
| 训练 tokens 数 | - | 1.6T | 1.6T |
| Pile-test (BPB) | - | 0.43 | 0.41 |
| BBH (EM) | 3-shot | 65.99 | 70.43 |
| MMLU (EM) | 5-shot | 72.37 | 74.93 |
| CMMLU (EM) | 5-shot | 75.9 | 78.76 |
| C-Eval (EM) | 5-shot | 73.78 | 77.13 |
| SimpleQA (EM) | 5-shot | 4.32 | 4.34 |
| 中文 SimpleQA (EM) | 5-shot | 35.18 | 36.85 |
| HumanEval+ (Pass@1) | 1-shot | 34.8 | 36.6 |
| MBPP+ (Pass@1) | 1-shot | 54.4 | 59.4 |
| GSM8K (EM) | 4-shot | 85.29 | 87.72 |
| MATH (EM) | 4-shot | 38.54 | 39.62 |
表 3:在 30B 配置上的消融结果。
2. 数据集
训练语料覆盖 60+ 种语言,配备了大量的质量过滤,并积极在多个环节引入 LLM 进行数据处理和质量评估。
LLM Quality Grader 我们使用基于 LLM 的质量评估器,并配合一组精心设计的 prompts,对来自不同来源的数据进行内容质量评估。通过对每条数据流抽取具有代表性的样本并打分,我们建立了稳定的质量标准,用于指导过滤阈值的设置。实践中,该方法非常高效:其结果与计算代价更高的方法(例如针对任务专门微调的分类器)高度相关,同时还能支持对新数据源更快地迭代。
OCR Pipeline 我们发现,在文档 OCR 中引入 Vision-Language Model(VLM)是一个有效方案:相比传统方法,它能够获得更高的抽取准确率,并支持更快的迭代。我们使用内部版本的 POINTS-Reader (Liu et al. 2025) 将原始 PDF 文档转换为干净的文本格式。
Encyclopedic Data Curation 为增强模型的事实性知识并保证语义多样性,我们使用多个独立流水线对百科类数据进行处理。通过对不同流水线的输出比例进行人工精调,我们在最大化信息覆盖面的同时,有效缓解了单一处理方法可能带来的系统性偏差。
3. 训练
预训练过程的关键决策如下:
- 优化器:我们使用 Muon 优化器 (Jordan et al., n.d.),momentum 系数为 0.95,iteration steps 为 5,weight decay 系数为 0.1。我们在第一阶段采用余弦学习率调度,最大学习率为 5e-4,结束学习率为 5e-5。
- 训练过程:80B 模型在主阶段使用 11T tokens 进行预训练,随后在 1.4T 高质量 tokens 上进行 annealing。最后,我们在 1.3T tokens 上进行 context extension,以将上下文长度扩展到 128K。
- 深度扩展:130B 变体从一个已完成 13.7T tokens 主阶段训练的 80B checkpoint 初始化。完成 Depth Up-Scaling 之后,130B 模型与 80B 基座模型采取类似的 annealing 与 context extension 流程。
- MTP损失:所有模型都集成了 Multi-Token Prediction(MTP)层,并将其 loss 权重固定为 0.3。
4. 基础设施
WeLM 系列在我们内部开发的训练框架上完成训练,该框架针对大规模稀疏模型进行了优化。为了在中等规模集群上保持高吞吐并应对内存约束,我们实现了若干专门的通信与内存管理策略:
-
DualPipeV 与 DeepEP:为解决专家并行中的通信瓶颈,我们采用了 DualPipeV 与 DeepEP (DeepSeek-AI et al. 2024)。这些技术通过计算与通信的重叠,有效消除了专家并行通信引入的气泡。
-
算子融合 (Kernel Fusion):随着 GPU 算力的提升,CPU 开销成为显著瓶颈。我们实现了 Grouped GEMM CUDA kernel,将所有专家的矩阵乘法合并,从而减轻 kernel 启动开销。此外,我们将 Norm 和 RoPE 等轻量级算子进行融合,以降低显存访问延迟和 CPU 端调度成本。
-
激活显存优化 (Activation Memory Optimization):增加 Micro Batch Size (MBS) 以提升 GPU 利用率通常受限于激活显存开销。我们通过以下方式解决这一问题:
- 选择性量化与重计算:我们以 BF16 作为主要精度,同时选择性地应用 FP8 量化或重计算。我们在 QKV 投影等层策略性地设置激活检查点 (activation checkpoints)。为缓解 MoE 模块中 top-k 隐藏状态副本带来的显存开销,我们对置换 (permutation) 阶段实施重计算,仅在权重的反向传播阶段触发。此外,我们对 SwiGLU 激活应用 tile-wise 量化。
- 融合 SwiGLU 与 MulProbs:我们优化了反置换 (unpermuting) 的计算顺序,将其移至 MoE SwiGLU 计算之后,并将它们融合为一个 kernel。通过该方案,张量可以被释放并在反向传播中重计算,从而显著降低激活显存开销。
5. 评测
公共基准
我们在一套较为全面的基准上评测这两个模型,以从推理能力、多语言能力以及长上下文处理等多个维度评估其表现。使用的公共基准如下:
-
英文任务:
- 通用理解:MMLU (Hendrycks, Burns, Basart, et al. 2021) (5-shot)、MMLU-Redux (Gema et al. 2025) (5-shot)、MMLU-Redux 2.0 (Gema et al. 2025) (5-shot) 与 MMLU-Pro (Wang et al. 2024) (5-shot, CoT)。
- 推理与逻辑:GPQA (Rein et al. 2024) (5-shot, CoT)、SuperGPQA (Du et al. 2025) (5-shot, CoT)、BBH (Suzgun et al. 2023) (3-shot, CoT) 与 BBH-Fix (3-shot, CoT),其中 BBH-Fix 使用了修正后的 few-shot prompts。
- 数学:MATH (Hendrycks, Burns, Kadavath, et al. 2021) (4-shot, CoT)、MATH-New-CoT (4-shot),它使用 GPT-4 生成的 Chain-of-Thought(CoT)示例以对齐更符合当下的评测范式;GSM8K (Cobbe et al. 2021) (4-shot, CoT) 与 GSM8K-New-CoT (4-shot)。
- 知识与幻觉:KOR-Bench (Ma et al. 2024) (3-shot)、SimpleQA (Wei et al. 2024) (5-shot, LLM judge) 与 AA-Omniscience (Jackson et al. 2025) (10-shot, LLM judge)。
-
中文任务:C-Eval (Huang et al. 2023) (5-shot)、C-MMLU (Li et al. 2024) (5-shot) 与 C-SimpleQA (He et al. 2025) (5-shot)。
-
多语言任务:MMMLU (OpenAI 2024) (5-shot)、INCLUDE (Romanou et al. 2024) (5-shot) 与 Global-MMLU (Singh et al. 2025) (5-shot)。
-
编程任务:EvalPlus (Liu et al. 2023) (1-shot)、MultiPL-E (Cassano et al. 2023) (1-shot) 与 CRUX-Input/Output (Gu et al. 2024) (1-shot)。
-
长上下文任务:RULER (Hsieh et al. 2024) (0-shot;VT 子任务使用 1-shot)、LongBench V2 (Bai et al. 2025) (0-shot)、MRCR V2 (Vodrahalli et al. 2024) (0-shot) 与 MTOB (Tanzer et al. 2023) (3-shot)。
表中所有开源模型都在相同环境下自行部署,并使用同一套评测流水线完成评测,以确保对比的可控性。两个 Qwen 模型(Qwen3-32B 与 Qwen3-Next 80B-A3B)是例外:由于其权重或 API 并未公开,我们直接引用 Qwen3 技术报告与 Qwen 发布博客中的基准结果,因此未进行复现评测。(Yang et al. 2025; Qwen Team, n.d.)
| Type | Benchmark | WeLM 80B-A3B |
WeLM 130B-A4.9B |
GLM-4.5 Air |
Qwen3-Next 80B-A3B |
Qwen3 32B |
Qwen3 30B-A3B |
Nemotron3 Nano 30B-A3B |
|---|---|---|---|---|---|---|---|---|
| English | MMLU | 85.65 | 86.91 | 80.61 | 84.72 | 83.61 | 81.09 | 76.91 |
| MMLU-Redux | 84.25 | 86.12 | 80.72 | 83.8 | 83.41 | 80.75 | 74.96 | |
| MMLU-Redux2.0 | 87.77 | 89.47 | 84.94 | - | - | 85.21 | 80.46 | |
| MMLU-Pro | 65.77 | 67.79 | 55.15 | 66.05 | 65.54 | 60.99 | 60.97 | |
| GPQA | 45.45 | 46.46 | 36.87 | 43.43 | 49.49 | 36.87 | 37.88 | |
| SuperGPQA | 43.31 | 44.41 | 34.94 | 41.52 | 39.78 | 35.7 | 31.51 | |
| BBH | 85.47 | 88.05 | 82.28 | 87.13 | 87.38 | 81.15 | 78.77 | |
| BBH-Fix | 87.9 | 90.4 | 84.75 | - | - | 81.37 | 80.16 | |
| KOR-Bench | 42.56 | 45.92 | 42.72 | - | - | 44.56 | 35.52 | |
| MATH | 60.04 | 58.78 | 65.63 | 62.36 | 61.62 | 60.16 | 65.48 | |
| MATH-New-CoT | 85.66 | 85.06 | 81.48 | - | - | 83.08 | 81.5 | |
| GSM8K | 87.72 | 90.9 | 86.2 | 90.3 | 93.4 | 89.99 | 87.57 | |
| GSM8K-New-CoT | 96.66 | 95.57 | 96.58 | - | - | 96.58 | 93.71 | |
| SimpleQA | 17.18 | 18.1 | 15.02 | - | - | 6.93 | 9.41 | |
| AA-Omniscience | 21.36 | 23.73 | 23.73 | - | - | 17.97 | 17.8 | |
| Chinese | C-Eval | 89.23 | 90.42 | 82.99 | - | - | 88.22 | 63.3 |
| CMMLU | 89.9 | 90.11 | 83.91 | - | - | 86.47 | 64.45 | |
| C-SimpleQA | 61.04 | 63.58 | 63.58 | - | - | 51.37 | 32.32 | |
| Multilingual | MMMLU | 71.7 | 74.33 | 64.11 | - | - | 66.36 | 36.91 |
| INCLUDE | 72.9 | 76.42 | 67.26 | 69.79 | 67.87 | 67.65 | 43.82 | |
| Global-MMLU | 78.94 | 80.92 | 72.24 | - | - | 69.87 | 63.42 | |
| Code | EvalPlus | 72.6 | 71.13 | 78.5 | 72.89 | 72.05 | 72.63 | 78 |
| MultiPL-E | 65.37 | 70.48 | 53.51 | - | 67.06 | 65.89 | 63.41 | |
| CRUX-Input | 68.8 | 65.1 | 62.3 | - | - | 59.4 | 62.75 | |
| CRUX-Output | 86.6 | 81.1 | 66.75 | 74.25 | 72.5 | 66.1 | 63.5 | |
| Long Context |
RULER-4k | 96.47 | 96.64 | 96.61 | - | - | 94.65 | 95.1 |
| RULER-8k | 94.90 | 96.44 | 95.26 | - | - | 92.27 | 93.75 | |
| RULER-16k | 95.11 | 96.51 | 93.98 | - | - | 90.27 | 92.58 | |
| RULER-32k | 94.69 | 96.24 | 92.09 | - | - | 87.36 | 89.22 | |
| RULER-64k | 92.13 | 94.96 | 84.02 | - | - | - | 86.49 | |
| RULER-128k | 88.09 | 91.88 | 62.29 | - | - | - | 81.65 | |
| RULER-avg | 93.57 | 95.45 | 87.38 | - | - | - | 89.80 | |
| LongBenchV2-32k | 48.31 | 47.46 | 30.51 | - | - | 38.98 | 33.05 | |
| LongBenchV2-128k | 34 | 35 | 25.5 | - | - | - | 30.5 | |
| LongBenchV2-avg | 41.16 | 41.23 | 28.01 | - | - | - | 31.78 | |
| MRCRv2 (<32k) | 37.72 | 47.55 | 34.8 | - | - | 33.77 | 29.37 | |
| MRCRv2 (<128k) | 33.42 | 42.15 | 30.08 | - | - | - | 24.58 | |
| MTOB | 57.45 | 64.75 | 43.15 | - | - | - | 33.65 |
WeLM 的不同模型在上述基准上展现了具有竞争力的表现。我们在此给出几条关键观察:
-
Depth Up-Scaling 的有效性:尽管 130B 模型是基于训练后期的 80B checkpoint 初始化,并采用了较低的学习率调度进行追加训练,但它在多数基准测试中仍取得了显著的性能提升。在涉及复杂推理和广泛事实性知识的任务中,这种提升尤为明显。
-
LLM 生成的 CoT 示例的影响:传统数学基准通常以人工标注的简短答案作为 few-shot 示例,这可能无法充分激发现代预训练模型的潜在推理能力。我们引入了 GSM8K-New-CoT 与 MATH-New-CoT——它们使用 LLM 生成的 Chain-of-Thought(CoT)解答作为示例——后,在所有评测模型上均观察到明显提升:在 GSM8K 上提高 3–8 个绝对点,在 MATH 上提高 2–5 个绝对点。该结果表明,随着模型能力演进,评测方法也需要同步更新,才能更准确地刻画推理能力的进步。
内部基准
为了进一步分析模型在更贴近当下的数据与更具挑战性的问题集上的表现,我们构建了若干内部基准。这些数据集旨在降低数据污染风险,并更细粒度地评估模型能力:
- GPQA-Bench (5-shot):研究生水平的推理基准,涵盖多个学科的 1.1K 道原创题目,每题为五选一选择题。
- Web-SimpleQA 与 Web-CSimpleQA (15-shot, LLM judge):借助内部 deep-research 流水线构建,用于分别评估模型在英文与中文上的世界知识掌握程度。相比原始 SimpleQA,这两个数据集覆盖的领域更广。
- Web-MMLU (5-shot):与 MMLU 形式相似的选择题基准,但其主题与题目完全不同,均由内部 research 流水线生成。
- WMT-Bench (5-shot):从 WMT24-pp 语料派生的机器翻译评测集。我们使用 XCOMET-XXL 指标进行自动化翻译评分。
| Benchmark | GLM-4.5 Air |
Qwen3 30B-A3B |
Nemotron3 Nano 30B-A3B |
WeLM 80B-A3B |
WeLM 130B-A4.9B |
|---|---|---|---|---|---|
| GPQA-Bench | 61.57 | 61.66 | 55.74 | 65.57 | 68.21 |
| Web-SimpleQA | 46.75 | 35.93 | 42.17 | 45.09 | 46.67 |
| Web-CSimpleQA | 47.03 | 38.98 | 32.55 | 47.44 | 49.83 |
| Web-MMLU | 83.56 | 84.68 | 86.14 | 89.47 | 90.17 |
图 2:WMT-Bench 上的表现
深度扩展模型的熵降低现象
在实践中,深度扩展后的模型通常表现出与基础检查点不同的输出模式。为了量化这一效应,我们比较了 80B-A3B 和 130B-A4.9B 两个变体在不同领域的 token 级输出熵,结果汇总如下。
130B-A4.9B 模型在英语、代码和数学领域表现出较低的平均熵,而中文领域则略有升高。这表明在大多数领域中输出多样性有所降低,方差变化则相对轻微。我们将对这一行为的深入分析留待后续工作。
| Domain | Model | Avg. Entropy | Entropy Std. |
|---|---|---|---|
| Chinese | 130B-A4.9B | 0.8162 | 0.4497 |
| 80B-A3B | 0.8009 | 0.4369 | |
| English | 130B-A4.9B | 0.9093 | 0.4666 |
| 80B-A3B | 0.9882 | 0.4605 | |
| Code | 130B-A4.9B | 0.6196 | 0.2390 |
| 80B-A3B | 0.6417 | 0.2426 | |
| Math | 130B-A4.9B | 0.2841 | 0.1894 |
| 80B-A3B | 0.2983 | 0.2117 |
6. 结论与展望
本文详细介绍了在适度算力约束下构建高性能 LLM 所需的架构改进与数据构建策略。我们的结果表明,将针对性的结构优化(例如 KV-Mirror 与稳定化的归一化)与严格的、由 LLM 驱动的数据质量控制相结合,可以显著缩小中等规模模型与更大、计算成本更高模型之间的性能差距。 我们相信,这些方法为在不依赖极端规模资源的情况下开发高效且强大的模型提供了一条切实可行的路线图。 后续我们会在更多文章中分享进一步的经验与洞见,敬请期待。
附录
从经验观察来看,高质量的预训练模型往往在开放式、分布外的写作任务上表现更好,这反映了其较强的泛化能力。 我们构建了一个内部 Write-Bench,并在下方给出 WeLM-80B 的部分输出样例。
输出样例
以华山为主题,写一篇古文。输出格式:
<文章开始>
...
<文章结束>
<文章开始>
太华之巔,星斗垂光,孤峰接汉。其势若巨鳌戴云,鲸吸玄溟。古柏虬结于危崖,悬泉迸珠于绝壑。晨观五色霞霓,暮聆万壑松涛。登顶者,仰见帝座,俯吞八荒,顿觉天壤为之一空。
忆昔女娲断鳌立极,始有坤轴之隆;轩辕铸鼎觞天,常驾苍龙之驾。秦皇跃马巡疆,勒石以铭功德;汉武筑台封禅,燃薪而见灵光。迨至唐李翰林,以剑决浮云,诗锋裂苍冥;宋范希文,忧乐关天下,墨痕留玉泉。
然则仙踪杳渺,空余采药人迹;劫火澹然,徒存伏羲画卦。独千仞青翠,送风送月;一泓凝碧,鉴古鉴今。是知山不在高,有仙则名;峰不在险,有志则尊。
嗟乎!游子临渊,欲掬星而不可得;志士怀远,望云涛而浩然生。纵使苍颜白发,犹乘鹤陟层巅;即令海竭江枯,永镇神州志气。
<文章结束>
Write a poem about vibe coding.
Output format:
<text>
...
</text>
<text>
VIBE CODING
The cursor blinks—a silent drum,
Averse to rules I never come
To learn, but follow instinct's hum—
Vibe coding, a frantic *ehem*
No tutorials to trace or grind,
No flags to catch the faulty kind.
Just run, observe, and stumble blind,
Where compilers used to shake in mind.
ChatGPT speaks in seraph tones,
While Gemini with midnight moans
Suggests fixes that slice and groans
Through logic’s fragile, trembling bones.
I *prompt* a thing that *looks* like code—
A fragile, formless, flowery load.
It *runs*! With errors splayed abroad,
Like ships that have lost every mode.
The AI hushes like a monk,
Then spills a daemon in the tank.
I jiggle brackets, curse, then—clank—
A flicker, then the whole thing *whack*!
No need to read what’s on the screen;
Just *feel* the flow—a fever, clean.
The stack overflows in neon green,
Like digital ice on summer’s keen.
We don’t debug; we *are* the bug.
We dance through errors in a hug
Of chaos—fed by caffeine’s tug—
And pray the latency won’t shrug
Us off into the void of servers,
Where ghosts of failed APIs sever
The tether. Oh, the sweet convergences
When source code sings through strange urgences!
We trust the magic, lean it hard—
For logic’s kiss is not its card.
The code? It works. It has the *lard*
Of wonder, chaos, and some shard
Of grace. The machine learns what we dare—
And spits back verse in electric air.
—after midnight, the monitor’s sigh,
A code poem that will never die.
</text>
References
Ainslie, Joshua, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebron, and Sumit Sanghai. 2023. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” arXiv Preprint arXiv:2305.13245.
Bai, Yushi, Shangqing Tu, Jiajie Zhang, et al. 2025. “Longbench V2: Towards Deeper Understanding and Reasoning on Realistic Long-Context Multitasks.” Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 3639–64.
Brown, Tom, Benjamin Mann, Nick Ryder, et al. 2020. “Language Models Are Few-Shot Learners.” Advances in Neural Information Processing Systems (NeurIPS) 33: 1877–901.
Cassano, Federico, John Gouwar, Daniel Nguyen, et al. 2023. “Multipl-e: A Scalable and Polyglot Approach to Benchmarking Neural Code Generation.” IEEE Transactions on Software Engineering 49 (7): 3675–91.
Cobbe, Karl, Vineet Kosaraju, Mohammad Bavarian, et al. 2021. “Training Verifiers to Solve Math Word Problems.” arXiv Preprint arXiv:2110.14168.
Dai, Damai, Chengqi Deng, Chenggang Zhao, et al. 2024. “Deepseekmoe: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models.” arXiv Preprint arXiv:2401.06066.
DeepSeek-AI. 2024. “DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.” arXiv Preprint arXiv:2405.04434.
DeepSeek-AI et al. 2024. “DeepSeek-V3 Technical Report.” arXiv Preprint arXiv:2412.19437.
Ding, Ming, Zhuoyi Yang, Wenyi Hong, et al. 2021. “Cogview: Mastering Text-to-Image Generation via Transformers.” NeurIPS.
Du, Xinrun, Yifan Yao, Kaijing Ma, et al. 2025. “Supergpqa: Scaling Llm Evaluation Across 285 Graduate Disciplines.” arXiv Preprint arXiv:2502.14739.
Fedus, William, Barret Zoph, and Noam Shazeer. 2022. “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.” The Journal of Machine Learning Research 23 (1): 5232–70.
Gema, Aryo Pradipta, Joshua Ong Jun Leang, Giwon Hong, et al. 2025. “Are We Done with Mmlu?” Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 5069–96.
Gloeckle, Fabian, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, and Gabriel Synnaeve. 2024. “Better & Faster Large Language Models via Multi-Token Prediction.” arXiv Preprint arXiv:2404.19737.
Gu, Alex, Baptiste Rozière, Hugh Leather, Armando Solar-Lezama, Gabriel Synnaeve, and Sida I Wang. 2024. “Cruxeval: A Benchmark for Code Reasoning, Understanding and Execution.” arXiv Preprint arXiv:2401.03065.
He, Yancheng, Shilong Li, Jiaheng Liu, et al. 2025. “Chinese Simpleqa: A Chinese Factuality Evaluation for Large Language Models.” Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 19182–208.
Hendrycks, Dan, Collin Burns, Steven Basart, et al. 2021. “Measuring Massive Multitask Language Understanding.” International Conference on Learning Representations.
Hendrycks, Dan, Collin Burns, Saurav Kadavath, et al. 2021. “Measuring Mathematical Problem Solving with the Math Dataset.” arXiv Preprint arXiv:2103.03874.
Hsieh, Cheng-Ping, Simeng Sun, Samuel Kriman, et al. 2024. “RULER: What’s the Real Context Size of Your Long-Context Language Models?” arXiv Preprint arXiv:2404.06654.
Huang, Hongzhi, Defa Zhu, Banggu Wu, et al. 2025. “Over-Tokenized Transformer: Vocabulary Is Generally Worth Scaling.” arXiv Preprint arXiv:2501.16975.
Huang, Yuzhen, Yuzhuo Bai, Zhihao Zhu, et al. 2023. “C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models.” Advances in Neural Information Processing Systems 36: 62991–3010.
Jackson, Declan, William Keating, George Cameron, and Micah Hill-Smith. 2025. “AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models.” arXiv Preprint arXiv:2511.13029.
Jordan, Keller, Yuchen Jin, Vlado Boza, et al. n.d. “Muon: An Optimizer for Hidden Layers in Neural Networks, 2024.” URL Https://Kellerjordan. Github. Io/Posts/Muon 6.
Kim, Dahyun, Chanjun Park, Sangdoo Kim, Wonsung Lee, Sunghyun Kim, and Yungi Ahn. 2023. “Solar 10.7b: Scaling Large Language Models with Simple Depth up-Scaling.” arXiv Preprint arXiv:2312.15166.
Li, Haonan, Yixuan Zhang, Fajri Koto, et al. 2024. “Cmmlu: Measuring Massive Multitask Language Understanding in Chinese.” Findings of the Association for Computational Linguistics: ACL 2024, 11260–85.
Liu, Jiawei, Chunqiu Steven Xia, Yuyao Wang, and Lingming Zhang. 2023. “Is Your Code Generated by Chatgpt Really Correct? Rigorous Evaluation of Large Language Models for Code Generation.” Advances in Neural Information Processing Systems 36: 21558–72.
Liu, Yuan, Zhongyin Zhao, Le Tian, et al. 2025. “POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion.” Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, 1576–601.
Ma, Kaijing, Xinrun Du, Yunran Wang, et al. 2024. “Kor-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks.” arXiv Preprint arXiv:2410.06526.
OpenAI. 2024. Multilingual Massive Multitask Language Understanding (MMMLU). Https://huggingface.co/datasets/openai/MMMLU{.uri}.
Qiu, Zihan et al. 2025. “Gated Attention for Large Language Models: Non-Linearity, Sparsity, and Attention-Sink-Free.” arXiv Preprint arXiv:2505.06708. https://arxiv.org/abs/2505.06708.
Qwen Team. n.d. Qwen3-Next 80B-A3B Release Blog. Https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd{.uri}.
Radford, Alec, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. “Language Models Are Unsupervised Multitask Learners.” OpenAI Blog 1 (8): 9.
Rein, David, Betty Li Hou, Asa Cooper Stickland, et al. 2024. “Gpqa: A Graduate-Level Google-Proof q&a Benchmark.” First Conference on Language Modeling.
Romanou, Angelika, Negar Foroutan, Anna Sotnikova, et al. 2024. “Include: Evaluating Multilingual Language Understanding with Regional Knowledge.” arXiv Preprint arXiv:2411.19799.
Shazeer, Noam, Azalia Mirhoseini, Krzysztof Maziarz, et al. 2017. “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.” arXiv Preprint arXiv:1701.06538.
Singh, Shivalika, Angelika Romanou, Clémentine Fourrier, et al. 2025. “Global Mmlu: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation.” Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 18761–99.
Sun, Yutao, Li Wang, Yaru Cui, et al. 2024. “You Only Cache Once: Decoder-Decoder Architectures for Language Models.” arXiv Preprint arXiv:2405.05254.
Suzgun, Mirac, Nathan Scales, Nathanael Schärli, et al. 2023. “Challenging Big-Bench Tasks and Whether Chain-of-Thought Can Solve Them.” Findings of the Association for Computational Linguistics: ACL 2023, 13003–51.
Svenstrup, Dan T, Jonas Hansen, and Ole Winther. 2017. “Hash Embeddings for Efficient Word Representations.” Advances in Neural Information Processing Systems (NeurIPS) 30.
Tanzer, Garrett, Mirac Suzgun, Eline Visser, Dan Jurafsky, and Luke Melas-Kyriazi. 2023. “A Benchmark for Learning to Translate a New Language from One Grammar Book.” arXiv Preprint arXiv:2309.16575.
Team, Qwen. 2024. “Qwen2.5 Technical Report.” arXiv Preprint arXiv:2412.15115.
Vodrahalli, Kiran, Santiago Ontanon, Nilesh Tripuraneni, et al. 2024. “Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries.” arXiv Preprint arXiv:2409.12640.
Wang, Yubo, Xueguang Ma, Ge Zhang, et al. 2024. “Mmlu-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark.” Advances in Neural Information Processing Systems 37: 95266–90.
Wei, Jason, Nguyen Karina, Hyung Won Chung, et al. 2024. “Measuring Short-Form Factuality in Large Language Models.” arXiv Preprint arXiv:2411.04368.
Yang, An, Anfeng Li, Baosong Yang, et al. 2025. Qwen3 Technical Report. https://arxiv.org/abs/2505.09388.
Zhuo, Zhijian, Yutao Zeng, Ya Wang, et al. 2025. HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization.