微信 AI 的 LLM 研究
初探 WeLM-258B MOE 模型后训练
本文以上一代模型 WeLM-V3-258B-A22B 为例,分享了团队在后训练阶段的流程与关键实践。
本页目录
在上一篇博客中,我们使用一个内部代号为 WeLM-V4-80-A3B 为例,介绍了团队近期在预训练环节的实践经验。
本文以更早一代的模型 WeLM-V3-258B-A22B MoE 为例,重点介绍团队在后训练阶段的实践经验。
WeLM-V3-258B-A22B MoE 模型的后训练流程包括冷启阶段和强化学习训练阶段。在冷启阶段,模型利用多样的、高质量的指令数据进行监督微调,以初步建立遵循指令和生成连贯响应的能力。随后进入强化学习训练阶段,结合验证器、奖励模型和策略优化算法,进一步提升模型在推理智能和有用性方面的表现。整个后训练流程注重数据质量、训练稳定性和多目标优化。最终使 WeLM-V3-258B-A22B MoE 模型在数学、逻辑推理、知识、问答、指令遵循、多轮对话、角色扮演等方面展现出一定的竞争力。
1. 预训练
相较于新一代 WeLM-V4 模型,WeLM-V3-258B-A22B 沿用了更为传统的模型架构,仅集成 Key-Norm(在 attention key projection 后引入归一化)、half RoPE(仅在部分维度增加相对位置编码)等少量改进,致使其在架构效率上略逊于新一代模型。
WeLM-V3-258B-A22B 基于最大规模为 1536 张 Nvidia H800 的集群完成了训练。在自行部署的同等环境下的评估结果显示,WeLM-V3-258B-A22B Base 展现出与 DeepSeek-V3 系列预训练模型可比的性能表现。
Category
Remark
Benchmark
DeepSeek-V3
DeepSeek-V3.1
WeLM-258B
English
MMLU
87.4
88.0
87.3
MMLU-Redux
87.1
88.0
86.4
MMLU-Redux2.0
89.9
90.4
90.2
MMLU-Pro
64.3
65.5
71.8
SuperGPQA
44.2
45.1
51.7
SimpleQA
27.4
27.3
29.8
BBH-Fix
90.8
91.5
90.8
Chinese
C-Eval
90.0
90.4
90.3
CMMLU
88.8
89.0
91.0
C-SimpleQA
72.6
72.1
73.4
Math
MATH
54.2
57.0
61.2
GSM8K
95.2
94.8
94.5
Code
Evaluate with zero-shot and 1-shot approaches respectively, and select the higher value.
EvalPlus
70.8
69.9
73.9
MultiPL-E
62.9
64.9
73.4
CRUX-Input
63.6
61.5
67.3
CRUX-Output
76.4
74.5
84.5
BigCode-full
51.8
53.2
48.9
BigCode-hard
22.3
23.0
27.7
LiveCodeBench-v6
24.2
26.4
37.4
Long Sequence
RULER-4k
97.7
97.8
97.3
RULER-8k
96.8
97.2
97.0
RULER-16k
96.4
96.7
96.8
RULER-32k
95.4
96.2
96.1
RULER-64k
93.4
94.8
95.0
RULER-128k
90.9
92.9
92.2
2. 冷启动
大语言模型的后训练实践普遍遵循一项基础假设:在指令微调(SFT)阶段取得更优性能指标的模型,在后续强化学习(RL)训练阶段亦能实现更出色的最终效果。近期,Kang 等人 (Kang et al. 2025) 发现,SFT 阶段的过度训练虽然在评估指标上呈现 “更优” 的表现,实则会压缩模型的策略探索空间;而 RL 的有效作用高度依赖模型对新策略的探索与更优策略的挖掘,经 SFT 过度训练、思维模式被 “固化” 的模型,难以在 RL 阶段实现性能突破。基于此,我们将 SFT 阶段的训练目标设定为:构建具备强探索潜力的冷启模型。这一目标首先对 SFT 训练数据提出核心要求:问题与思维链的双重多样化。
问题多样化
为尽可能最大化问题样本的多样性,我们搭建了一套标准化的数据打标与筛选流程,以高质量和广覆盖为核心构建问题样本集。首先,我们对问题样本进行质量校验,剔除语义模糊、指令浅显的低质量样本,保障基础数据可靠性。接下来,对通过质量校验的问题进行开放领域标签分类,基于预设阈值筛选标签分布均衡、多样性充足的样本。最后,为进一步降低问题间的语义冗余、提升样本差异化水平,对所有问题进行语义层面的聚类与分桶处理,再从每个聚类类别中按固定数量抽取样本,最终形成满足多样化需求的问题样本集。为避免数据泄露的风险,我们采用 MinHash-LSH(Broder 1997) 与基于语义向量的相似度过滤方法,分别在文档粒度与子句粒度开展全维度数据泄露检测,严格规避数据污染问题,保障样本集的独立性与有效性。
思考链多样化
为了让模型在冷启动阶段习得多视角的问题求解能力,我们对思维链样本同步开展质量过滤与分桶筛选。同时,我们提出 ConCISE 技术(Qiao et al. 2025),对思维链中因答案推理不确定性产生的冗余思考与验证步骤进行针对性裁剪,使指令微调后的模型尽量摆脱 “计算 - 验证 - 反复确认 - 输出答案” 的固化推理范式,能够针对不同题型适配更灵活的解题策略。
基于上述方法,我们最终构建了数十万量级的 SFT 数据集,其任务类型和文本长度分布如下图所示:

图 1: SFT 数据的任务和长度的分布
此外,我们随机采样 1 万条样本对其思维链模式开展量化分析(见图 2)。结果显示,基于 14 个逻辑维度的全路径覆盖,采样数据集的思维模式可构建为路径高度发散的非线性复杂思维网络。从拓扑特征分析,其图密度达 0.85、平均出度接近 12,表明推理算子间实现了近乎全连接的深度交互,充分体现出数据集拥有丰富的推理链条多样性与灵活的逻辑决策能力。

图2: SFT 采样数据的思维链拓扑图展示
3. 强化学习训练
我们的强化学习训练以 GRPO(Shao et al. 2024) 为主,采用两阶段训练流程,即先训练数学任务,再训练混合任务。接下来分享我们在训练任务的数据优化和稳定性训练策略方面的尝试与发现。
数学任务
构建通用强语言模型的核心,是突破任务特异性限制,实现跨领域的推理与决策能力迁移。数学任务具有强结构化、逻辑清晰、推理链路完整的特点,通过数学强化学习可有效提升模型的推理能力与决策严谨性,进而助力模型在其他任务中的泛化性能提升。基于此,我们将 RL 第一阶段的优化重点聚焦于数学任务。
数据
我们将数学任务的 RL 训练数据依据答案呈现形式,划分为选择题、判断题、问答题及证明题四类。其中,选择题与判断题在 RL 训练过程中存在答案随机猜对的可能性,易导致训练反馈失真,因此将其统一改写为问答题形式,规避随机猜对带来的训练偏差。证明题的训练依赖对每一步推导过程的精准验证,验证逻辑复杂度较高,暂对其进行过滤,不纳入本次第一阶段训练范围。
验证器
数学答案存在多样化表达形式,包括科学表达式、LaTeX 格式、Markdown 格式等,为验证数学的准确性和稳定性带来挑战。现有部分研究工作(Yu et al. 2025) 为简化验证流程,将各类答案统一转换为易验证的格式(如纯数字、单个变量)。然而,这种方式会大幅降低题目难度,导致高质量有效训练数据流失。为保留题目原有难度、充分复用高质量数学数据,同时培养模型处理真实场景下数学答案多样性的能力,我们没有选择把各类数学答案进行简化转换,而是提出一种鲁棒性更强的混合验证模式—规则与模型相结合的验证框架。考虑到模型验证易存在的结果不一致问题,在实践中,我们采用分层验证策略,仅对规则验证判定为错误的样本,通过模型验证进行二次召回,提升验证准确性。在 HardVerify-Math 测试集 (Xu et al. 2025) 上的对比实验表明,该混合验证模式的准确率可达 94.4%,显著优于单一验证方式。
| 方法 | 规则验证 | 模型验证 | 混合验证 |
|---|---|---|---|
| Accuracy | 76.8 | 78.4 | 94.4 |
表 1: 不同数学准确性验证模式在 HardVerify-Math 测试集的准确率对比
混合任务
在混合任务的强化学习训练阶段,我们的数据包括推理型任务和通用领域任务。推理型任务包括:数学、编程和逻辑推理等;通用领域任务包括:STEM、创作和文档知识问答等。
对于推理型任务,我们采用基于规则和模型判断的正确性作为主要奖励,并配合格式规范性奖励以提升输出质量。对于通用领域任务,其答案的呈现形式多样,且通常不唯一,我们额外引入 GRM 作为验证器,为强化学习训练过程提供更准确的反馈信号。鉴于强化学习训练数据覆盖面广,我们面临如何同时在推理密集型任务与通用领域任务上取得优异表现,避免特定技能的遗忘和促进更广泛的泛化能力。为此,我们对各任务的数据占比进行调控,以在推理与通用任务之间实现平衡。这一策略既确保模型持续巩固可验证技能(如数学、编程与逻辑推理),又稳步提升其在通用任务上的能力,从复杂的指令遵循到开放式的思维链推理。
STEM 任务
以 STEM 任务为例,在提升理化生等高难度学科推理能力方面,我们从教材、专业文献和开源问答数据构建覆盖面广且具有显著深度与难度的知识点体系用于合成数据,并采取多个强模型投票过滤策略,剔除逻辑歧异样本。实验发现,将此类高难度合成数据与精选自然数据进行混合训练,其性能表现显著优于单一数据源,有效提升了模型在复杂推理任务上的能力。
为尽量避免 Reward Hacking 问题,我们主要使用问答题形式的数据,通过定义精细化 Rubric 及扩大 Rollout 采样空间,实现 GenRM 与策略模型的迭代式强化。这种对推理过程和最终答案同步打分的机制,显著增强了 RL 训练的稳定性与最终的效果。在内部人工标注的高难度测试集上,训练后的 WeChat-GRM 显著优于普通的 LLM-as-judge。
| Model | Accuracy |
|---|---|
| DeepSeek-V3-0324 | 57.9 |
| QwQ-32B | 58.3 |
| Deepseek-R1-0528 | 73.6 |
| WeChat-GRM-32B | 78.5 |
表 2: 不同 Verifier 在高难度测试集下的表现
稳定性训练策略
接下来,分享我们在稳定性训练策略方面的实践。
提高专家路由精度
在 MoE 模型的强化学习训练中,路由负责将 Token 分发至不同的专家模块。随着专家数量的增加,不同专家的路由得分往往极为接近,在 FP32 精度下微小的数值截断和舍入误差可能导致 Top-K 专家选择出现错误,从而引发完全不同的计算路径。为此,我们采用 FP64 高精度路由技术,利用双精度浮点的 52 位小数精度(相比 FP32 的 23 位)确保专家间得分的精确区分,避免精度漂移导致的专家误选。
异常序列掩码
训练与推理的不一致性是大语言模型强化学习过程的一大挑战,在高稀疏度的混合专家(MoE)模型中尤为突出。如 SGLang,vLLM 一类的推理框架通常为了生成效率对算子调度、精度策略等方面进行了深度优化,其底层实现细节与训练框架难以完全对齐。这种差异导致模型在推理阶段生成偏离当前策略分布的异常数据。为此我们提出了一种融合文本特征与 KL 散度(Kullback-Leibler divergence)的异常序列检测机制,通过对与当前策略偏差显著的推理结果进行自适应掩码过滤(Liu et al. 2025),有效抑制异常样本对策略更新的干扰,提升训练过程的稳定性与收敛效率。
推出校正
随着推理长度和训练步数的增加,RL 的训练引擎与推理引擎之间存在的概率分布偏差会不断累积,导致 RL 训练崩溃(Yao et al. 2025)。对此,我们使用 IcePop(Zhao et al. 2025) 校正技术,通过双向截断与动态掩码机制,校正训练与推理阶段的概率分布偏差。其中,双向截断机制同时截断训练概率显著高于或低于推理概率的 Token;动态掩码机制则对概率比值超出阈值的 Token 实施梯度屏蔽,将其排除在梯度计算之外。
熵控制策略
在 RL 训练中,由于模型倾向于牺牲不确定性(熵)来换取短期回报,导致策略熵在训练初期便急剧下降,使模型过早陷入"过度自信"的状态。 我们使用 Clip-Cov(Cui et al. 2025) 技术,通过限制高协方差 Token 的梯度更新,有效遏制策略熵的过快坍缩。这种机制迫使模型跳出舒适区,保留了持续探索的可能性,从而帮助策略突破熵瓶颈并显著提升推理性能。
基于重复检测的提前截断策略
在 RL 训练中,我们观察到模型出现训练崩溃前,在解码阶段往往进入大段重复生成的循环,由此产生的过大梯度会破坏训练稳定性。为此,我们选择在重复片段形成之前进行提前检测与终止,而非事后惩罚已生成的重复文本。鉴于简单的字符串匹配难以覆盖多样化的重复模式,我们使用了一种基于 Token 预测概率的启发式方法:一旦模型陷入重复循环,重复 Token 的预测概率会显著上升。据此,我们参考(MiniMax 2025),设定提前截断规则:若连续 N (预先设定的阈值) 个 Token 的预测概率均高于 0.99,则立即停止生成。在混合任务的强化学习场景中,我们进一步发现不同任务的判定重复循环的阈值存在显著差异,因而采用面向任务的重复检测提前截断策略,对不同任务采用差异化阈值。该方法有效提升了训练稳定性,并通过消除重复生成的长尾案例显著提高训练效率。
4. 实验
基准介绍
我们基于多维度公开基准,对完成后训练的模型开展了系统性严谨评估,评估覆盖的基准任务如下:
- 通用任务:MMLU-Pro(Y. Wang et al. 2024)、Chinese-SimpleQA(He et al. 2025)、SimpleQA-Verified(Haas et al. 2025)、GPQA-Diamond(Rein et al. 2024) 和 C-EVAL(Huang et al. 2023)。
- 对齐:LiveBench-20241125(White et al. 2024,)、IFEVAL[zhou2023instruction]、Multi-Challenge(Deshpande et al. 2025)、COLLIE(Yao et al. 2023) 和 WritingBench(Wu et al. 2025)。
- 数学与代码:AIME25(AIME 2025)、HMMT Nov 2025(Balunović et al. 2025)、IMO-AnswerBench(Luong et al. 2025) 和 LiveCodeBench v6(Jain et al. 2024)。
- 推理:DROP(Dua et al. 2019) 和 ZebraLogic(Lin et al. 2025)。
- 角色扮演:SocialBench(Chen et al. 2024)、RoleBench(N. Wang et al. 2024) 和 RoleMRC(Lu et al. 2025)。
- 工具调用:AgentIF-CSR(Qi et al. 2025)、BFCL-v4(Patil et al., n.d.) 和 Tau-2(Barres et al. 2025)。
针对内部具体业务场景和大模型常见错误问题,我们也构建了一些内部开发验证集,包括:
- Text Rewriting:根据用户的模糊指令进行文本改写。
- Time Reasoning:满足用户的时间待办需求。根据用户给定的时间间隔,推理出未来的时间点。
- Count:统计句子中某个字符的个数。
所有模型的测试均采用统一配置:temperature 设为 0.6、top_p 设为 0.95,最大生成长度为 32768。针对数学、代码、科学类问答等任务,采用多次采样取均值的方式开展评测。其中 AIME25 采样 64 次,IMO-AnswerBench & HMMT Nov 2025 采样 4 次,LiveCodeBench v6 采样 8 次,GPQA-Diamond 采样 8 次。
实验结果
我们基于 WeLM-V3-258B-A22B 基座模型,用 1024 张 H20 卡训练了一版 Thinking 模型和 Instruct 模型,下面展示两个模型的实验结果。
Thinking 模型对比
在适度资源下,为了快速验证方法,我们在强化学习训练阶段限制了最大推理长度为 32K Tokens,因此,在测试时我们也限制了 WeLM 模型的最大推理长度为 32K Tokens。对比模型在 RL 训练阶段的采用了更大推理长度来获取更佳效果,因此对于对比模型,我们同时展示了最大推理长度为 32K Tokens (如 DeepSeek-R1-0528-32K 和 Qwen3-235B-A22B-Thinking-2507-32K)和 128K Tokens(如 DeepSeek-R1-0528-128K 和 Qwen3-235B-A22B-Thinking-2507-128K)的效果。我们用粗体标记 WeLM 模型的效果同时优于 DeepSeek-R1-0528-32K 和 Qwen3-235B-A22B-Thinking-2507-32K,用下划线标记 WeLM 模型的效果仅优于 DeepSeek-R1-0528-32K。
| Benchmarks | WeLM-258B-A22B-Thinking-32K | DeepSeek-R1-0528-32K | Qwen3-235B-A22B-Thinking-2507-32K | DeepSeek-R1-0528-128K | Qwen3-235B-A22B-Thinking-2507-128K | |
|---|---|---|---|---|---|---|
| Knowledge | MMLU-Pro | 84.1 | 83.8 | 83.3 | 84.1 | 83.8 |
| Chinese-SimpleQA | 74.3 | 69.7 | 73.5 | 68.7 | 79.6 | |
| SimpleQA-Verified | 34.4 | 27.4 | 51.8 | 29.3 | 52.1 | |
| GPQA-Diamond | 79.3 | 78.9 | 80.6 | 79.4 | 81.1 | |
| Alignment | LiveBench-20241125 | 77.0 | 78.2 | 81.1 | 79.0 | 81.7 |
| IFEval-Pstrict | 90.9 | 80.5 | 90.3 | 83.5 | 90.7 | |
| Multi-Challenge | 55.9 | 52.3 | 45.9 | 51.9 | 57.9 | |
| COLLIE | 93.0 | 74.7 | 78.6 | 77.1 | 80.6 | |
| Writing Bench | 79.0 | 83.8 | 87.7 | 83.7 | 87.7 | |
| Inhouse-Text Rewriting | 75.0 | 75.0 | 81.0 | 80.0 | 79.0 | |
| Math & Code | AIME25 | 82.2 | 83.3 | 77.3 | 87.8 | 92.2 |
| HMMT Nov 2025 | 80.8 | 66.7 | 70.8 | 85.0 | 83.9 | |
| IMO-AnswerBench | 59.6 | 50.4 | 57.8 | 69.4 | 74.5 | |
| LiveCodeBench v6-python | 67.0 | 62.0 | 66.2 | 75.7 | 69.3 | |
| Reasoning | DROP | 87.8 | 87.1 | 88.6 | 85.7 | 88.6 |
| ZebraLogic | 96.3 | 94.4 | 96.8 | 97.0 | 97.8 | |
| Inhouse-Time Reasoning | 67.0 | 69.4 | 68.9 | 71.4 | 68.5 | |
| Inhouse-Count | 73.8 | 69.9 | 68.7 | 73.3 | 68.3 | |
| Role Play | SocialBench | 82.4 | 82.4 | 80.4 | 82.3 | 80.6 |
| RoleBench | 20.5 | 13.9 | 14.2 | 13.9 | 14.4 | |
| RoleMRC | 65.7 | 68.9 | 71.6 | 80.8 | 85.4 | |
| Tool Use | AgentIF-CSR | 62.7 | 64.4 | 63.7 | 63.0 | 61.8 |
| BFCL-v4-singleturn-live | 84.7 | 78.4 | 83.7 | 77.3 | 82.5 | |
| BFCL-v4-singleturn-nonlive | 90.2 | 85.3 | 87.4 | 86.3 | 88.0 | |
| BFCL-v4-multiturn | 45.1 | 34.9 | 51.5 | 37.2 | 52.8 | |
| BFCL-v4-memory | 31.0 | 36.1 | 28.6 | 32.9 | 28.4 | |
| Tau-2 bench (telecom) | 58.8 | 36.8 | 46.5 | 35.1 | 43.9 | |
| Tau-2 bench (airline) | 58.0 | 64.0 | 56.0 | 60.0 | 60.0 | |
| Tau-2 bench (retail) | 64.0 | 66.7 | 69.3 | 62.3 | 73.7 |
Instruct 模型对比
对于 Instruct 模型,在测试时我们统一限制 WeLM 模型和对比模型的最大推理长度为 32K Tokens。我们用粗体标记 WeLM 模型的效果同时优于 DeepSeek-V3.2-Instruct 和 Qwen3-235B-A22B-Instruct-2507,用下划线标记 WeLM 模型的效果仅优于 DeepSeek-V3.2-Instruct。
| Benchmarks | WeLM-258A22B-Instruct | DeepSeek-V3.2-Instruct | Qwen3-235A22B-Instruct-2507 | |
|---|---|---|---|---|
| Knowledge | MMLU-Pro | 84.1 | 84.0 | 79.0 |
| Chinese-SimpleQA | 72.2 | 70.3 | 84.8 | |
| Chinese-SimpleQA-RAG | 97.0 | 97.3 | 97.0 | |
| SimpleQA-Verified | 24.4 | 26.3 | 53.8 | |
| SimpleQA-Verified-RAG | 92.5 | 94.2 | 94.0 | |
| GPQA-Diamond | 77.6 | 76.5 | 70.0 | |
| Alignment | LiveBench-20241125 | 69.8 | 73.9 | 76.4 |
| IFEval-Pstrict | 87.8 | 89.8 | 89.4 | |
| Multi-Challenge | 44.8 | 49.9 | 51.4 | |
| COLLIE | 61.4 | 61.2 | 57.1 | |
| Writing Bench | 84.2 | 81.5 | 84.6 | |
| Inhouse-Text Rewriting | 74.0 | 67.0 | 70.0 | |
| Math & Code | AIME25 | 78.3 | 56.1 | 68.6 |
| HMMT Nov 2025 | 70.0 | 56.7 | 65.0 | |
| IMO-AnswerBench | 60.3 | 46.9 | 59.1 | |
| LiveCodeBench-v6 | 53.7 | 53.2 | 46.7 | |
| Reasoning | DROP | 86.0 | 86.0 | 87.2 |
| ZebraLogic | 88.3 | 84.5 | 94.1 | |
| Inhouse-Time Reasoning | 49.4 | 47.1 | 49.9 | |
| Inhouse-Count | 52.1 | 61.4 | 63.1 | |
| Role Play | SocialBench | 86.1 | 84.9 | 84.0 |
| RoleBench | 23.6 | 21.1 | 20.8 | |
| RoleMRC | 80.7 | 78.7 | 77.4 | |
| Tool Use | AgentIF-CSR | 56.1 | 64.5 | 63.3 |
| BFCL-v4-singleturn-live | 81.7 | 54.1 | 83.3 | |
| BFCL-v4-singleturn-nonlive | 89.3 | 35.0 | 89.5 | |
| BFCL-v4-multiturn | 43.8 | 38.0 | 41.5 | |
| BFCL-v4-memory | 23.4 | 60.2 | 28.2 | |
| Tau-2 bench (telecom) | 57.9 | 72.8 | 32.5 | |
| Tau-2 bench (airline) | 60.0 | 56.0 | 50.0 | |
| Tau-2 bench (retail) | 71.9 | 77.2 | 74.6 |
以上实验结果表明:
- 在最大推理长度不超过 32K Tokens 条件下,WeLM-258B-A22B-Thinking 模型在多个基准评测集上展现出了一定的竞争力,如数学、推理、知识、对齐等相关任务。在使用更大的推理长度时(如 128K),对比模型在一些困难任务上可以取得显著更好的效果(如 IMO-AnswerBench、LiveCodeBench v6等任务)。在我们的长推理 RL 训练实验中也有类似结论,不过这个模型还未完成训练。
- WeLM-258B-A22B-Instruct 模型在多个基准评测集上展现出了不错的竞争力,如数学、推理、知识、角色扮演等任务。
5. 总结与展望
本文介绍了我们在 WeLM-258B-A22B MoE 模型的后训练阶段尝试的方法与数据策略。我们适度利用资源,完成了第一版后训练探索:
- 我们的 Instruct 模型在数学、推理、知识、角色扮演以及基础的工具调用能力方面取得了比较有竞争力的效果;
- 我们的 Thinking 模型在强化学习训练阶段限制了最大推理长度不超过 32K Tokens,让我们在相对较短的时间内探索出了一些成功路径,同时也约束了模型在更困难的推理任务上的表现。
我们仍在探索提升推理能力上限的强化学习方法和精准地函数与工具调用方法,并持续探索提升思维链 “智能密度” 的方法。
References
AIME. 2025. AIME Problems and Solutions. [Https://artofproblemsolving.com/wiki/index.php/AIME Problems and Solutions.](https://artofproblemsolving.com/wiki/index.php/AIME Problems and Solutions.){.uri}
Balunović, Mislav, Jasper Dekoninck, Ivo Petrov, Nikola Jovanović, and Martin Vechev. 2025. MathArena: Evaluating LLMs on Uncontaminated Math Competitions. SRI Lab, ETH Zurich. https://matharena.ai/.
Barres, Victor, Honghua Dong, Soham Ray, Xujie Si, and Karthik Narasimhan. 2025. arXiv Preprint arXiv:2506.07982.
Broder, Andrei Z. 1997. “On the Resemblance and Containment of Documents.” Compression and Complexity of Sequences 1997. Proceedings, 21–29.
Cui, Ganqu, Yuchen Zhang, Jiacheng Chen, et al. 2025. “The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models.” arXiv Preprint arXiv:2505.22617.
Deshpande, Kaustubh, Ved Sirdeshmukh, Johannes Baptist Mols, et al. 2025. “Multichallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier Llms.” Findings of the Association for Computational Linguistics: ACL 2025, 18632–702.
Dua, Dheeru, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. 2019. “DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning over Paragraphs.” arXiv Preprint arXiv:1903.00161.
Haas, Lukas, Gal Yona, Giovanni D’Antonio, Sasha Goldshtein, and Dipanjan Das. 2025. “Simpleqa Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge.” arXiv Preprint arXiv:2509.07968.
He, Yancheng, Shilong Li, Jiaheng Liu, et al. 2025. “Chinese Simpleqa: A Chinese Factuality Evaluation for Large Language Models.” Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 19182–208.
Huang, Yuzhen, Yuzhuo Bai, Zhihao Zhu, et al. 2023. “C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models.” Advances in Neural Information Processing Systems 36: 62991–3010.
Jain, Naman, King Han, Alex Gu, et al. 2024. “Livecodebench: Holistic and Contamination Free Evaluation of Large Language Models for Code.” arXiv Preprint arXiv:2403.07974.
Kang, Feiyang, Michael Kuchnik, Karthik Padthe, et al. 2025. Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead. https://arxiv.org/abs/2510.01624.
Lin, Bill Yuchen, Ronan Le Bras, Kyle Richardson, et al. 2025. “Zebralogic: On the Scaling Limits of Llms for Logical Reasoning.” arXiv Preprint arXiv:2502.01100.
Liu, Aixin, Aoxue Mei, Bangcai Lin, et al. 2025. “Deepseek-V3. 2: Pushing the Frontier of Open Large Language Models.” arXiv Preprint arXiv:2512.02556.
Lu, Junru, Jiazheng Li, Guodong Shen, et al. 2025. “Rolemrc: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-Following.” arXiv Preprint arXiv:2502.11387.
Luong, Thang, Dawsen Hwang, Hoang H. Nguyen, et al. 2025. “Towards Robust Mathematical Reasoning.” Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. https://aclanthology.org/2025.emnlp-main.1794/.
MiniMax. 2025. MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention. https://arxiv.org/abs/2506.13585.
Patil, Shishir G, Huanzhi Mao, Fanjia Yan, et al. n.d. “The Berkeley Function Calling Leaderboard (BFCL): From Tool Use to Agentic Evaluation of Large Language Models.” Forty-Second International Conference on Machine Learning.
Qi, Yunjia, Hao Peng, Xiaozhi Wang, et al. 2025. “Agentif: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios.” arXiv Preprint arXiv:2505.16944.
Qiao, Ziqing, Yongheng Deng, Jiali Zeng, et al. 2025. “ConCISE: Confidence-Guided Compression in Step-by-Step Efficient Reasoning.” Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (Suzhou, China), November, 8010–29. https://doi.org/10.18653/v1/2025.emnlp-main.405.
Rein, David, Betty Li Hou, Asa Cooper Stickland, et al. 2024. “Gpqa: A Graduate-Level Google-Proof q&a Benchmark.” First Conference on Language Modeling.
Shao, Zhihong, Peiyi Wang, Qihao Zhu, et al. 2024. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. https://arxiv.org/abs/2402.03300.
Wang, Noah, Zy Peng, Haoran Que, et al. 2024. “Rolellm: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models.” Findings of the Association for Computational Linguistics: ACL 2024, 14743–77.
Wang, Yubo, Xueguang Ma, Ge Zhang, et al. 2024. “Mmlu-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark.” Advances in Neural Information Processing Systems 37: 95266–90.
White, Colin, Samuel Dooley, Manley Roberts, et al. 2024. “Livebench: A Challenging, Contamination-Free Llm Benchmark.” arXiv Preprint arXiv:2406.19314 4.
Wu, Yuning, Jiahao Mei, Ming Yan, et al. 2025. “Writingbench: A Comprehensive Benchmark for Generative Writing.” arXiv Preprint arXiv:2503.05244.
Xu, Zhangchen, Yuetai Li, Fengqing Jiang, et al. 2025. TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning. https://arxiv.org/abs/2505.14625.
Yao, Feng, Liyuan Liu, Dinghuai Zhang, Chengyu Dong, Jingbo Shang, and Jianfeng Gao. 2025. “Your Efficient RL Framework Secretly Brings You Off-Policy RL Training.” In Feng Yao’s Notion. https://fengyao.notion.site/off-policy-rl.
Yao, Shunyu, Howard Chen, Austin W Hanjie, Runzhe Yang, and Karthik Narasimhan. 2023. “Collie: Systematic Construction of Constrained Text Generation Tasks.” arXiv Preprint arXiv:2307.08689.
Yu, Qiying, Zheng Zhang, Ruofei Zhu, et al. 2025. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. https://arxiv.org/abs/2503.14476.
Zhao, Xin, Yongkang Liu, Kuan Xu, et al. 2025. Small Leak Can Sink a Great Ship–Boost RL Training on MoE with IcePop! https://ringtech.notion.site/icepop.