筛除“简单”样本后，模型是否会遗忘解决基础问题的能力？探讨RL的影响 – 知乎

共计 732 个字符，预计需要花费 2 分钟才能阅读完成。

在强化学习（RL）训练中，将模型生成的 N 次完全正确的样本视为“简单样本”并加以筛除，以提升后续训练效率，已逐渐成为一种普遍做法。

然而，我对此产生了一些担忧。在某些实际问题中，样本的复杂性并不能简单地用“简单”或“困难”来界定。不同样本可能来源于不同的领域，模型在 RL 前可能擅长处理领域 A，而在 RL 后则转向领域 B。由于长时间未接触领域 A 的样本，模型可能会出现遗忘现象，导致它在“简单”问题上反而表现不佳。

当然，这只是我的一种假设。我想请教各位专家，是否在实际操作中遭遇过类似的情况？或者是否可以完全无视地筛掉“简单”样本呢？

在 RL 训练过程中，模型确实可能会遗忘原有的简单问题。此外，在目前的 GRPO 设置中，N 次完全正确的样本组内其优势值（advantage）也是零。如果不将这些样本筛除，它们对训练并没有任何帮助。

至于您提到的领域 A 和领域 B 之间的遗忘现象，情况确实非常严重。例如，在我下面的实验中，经过 SQL 训练的模型在数学领域的 OOD 测试中表现不佳，无论是无 KL 的 GRPO、DAPO，还是 Reverse KL+DAPO，结果都显著下降：

DPH 是我在论文中提出的方法，也是我们公司用于保持模型稳定性的策略。我们将数据集分为两类，N 次完全正确的样本通过另一种 f -divergence 加以控制，而其余数据则进行无 KL 的探索。
有关详细信息，欢迎参考我的论文：THE CHOICE OF DIVERGENCE: A NEGLECTED KEY TO MITIGATING DIVERSITY COLLAPSE IN REINFORCEMENT LEARNING WITH VERIFIABLE REWARD
https://arxiv.org/pdf/2509.07430

正文完

强化学习样本筛选模型遗忘训练效率领域适应

发表至：人工智能

2025-09-21

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

深入探讨人工智能技术应用与专业前景：从深圳大会到实际案例分析

人工智能的未来：探讨AI技术发展趋势、行业应用及教育路径的全景分析与深度展望

揭示人工智能机器人伴侣的未来：从入门书籍到行业现状与发展趋势的深度分析

探索人工智能的多重维度：从历史发展到行业应用，硕士教育的值得性与未来展望

揭秘2024人工智能发展趋势与应用前景：从算法创新到行业应用，全方位解析未来的机遇与挑战

从工业革命到人工智能：探讨新技术发展对未来就业的深远影响与机遇

探讨人工智能能否取代人类：一场关于未来的深刻辩论与思考

探讨人工智能在教育、行业及未来应用领域的深远影响与发展趋势分析

科大讯飞创新突破：星火大模型七维评测，应用落地引领未来

百度起诉苹果：文心一言“官方APP”背后的惊天骗局揭秘