牛哥精选 · 本周

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv NLP 2026-05-22

Linear Dynamics in the RLVR Training of Large Language Models

揭秘大语言模型RLVR训练中的线性动力学机制，为强化学习优化提供新视角。

arXiv:2601.04537v3 Announce Type: replace-cross Abstract: Reinforcement learning with verifiable rewards (RLVR) has driven significant performance gai…

大语言模型 rlvr 线性动力学训练优化强化学习

📝 深度技术 arXiv 机器学习 2026-05-21

Conformal Selective Acting: Anytime-Valid Risk Control for RLVR-Trained LLMs

新方法保障LLM在线部署每轮风险可控，基于共形预测与RLVR训练，安全认证更可靠。

arXiv:2605.20270v1 Announce Type: new Abstract: A local specialist LLM, fine-tuned with reinforcement learning from verifiable rewards (RLVR) on opera…

llm 安全部署风险控制 rlvr 共形预测

📝 深度技术 arXiv 机器学习 2026-05-21

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

揭示RLVR训练中参数轨迹的秩一结构，仅需极小规模训练即可外推LLM推理能力，颠覆传统认知。

arXiv:2605.21468v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving rea…

强化学习大语言模型参数轨迹秩1外推可验证奖励

📝 深度技术 arXiv 机器学习 2026-05-20

Step-wise Rubric Rewards for LLM Reasoning

提出逐步评分奖励机制，优化LLM推理的中间步骤监督，突破传统仅奖励最终答案的局限。

arXiv:2605.17291v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning in large lan…

llm推理强化学习分步奖励 rlvr 研究论文

📝 深度技术 arXiv AI 2026-05-20

CuSearch: Curriculum Rollout Sampling via Search Depth for Agentic RAG

提出CuSearch课程采样法，通过搜索深度优化Agentic RAG的强化学习训练，提升效率

arXiv:2605.11611v2 Announce Type: replace Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising paradigm for trai…

cusearch 课程采样 agentic ra 强化学习搜索深度

📝 深度技术 arXiv 机器学习 2026-05-20

Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

Muon优化器在视觉语言对齐与强化学习微调中暴露频谱失效问题，作者提出高通滤波器补救方案，刷新大模型训练认知。

arXiv:2605.19282v1 Announce Type: new Abstract: Muon is a matrix-aware optimizer that leverages Newton-Schulz (NS) iterations to enforce spectral grad…

muon优化器频谱失败高通滤波 vla rlvr

📝 深度技术 arXiv 机器学习 2026-05-20

Reasoning Portability: Guiding Continual Learning for MLLMs in the RLVR Era

提出“推理可移植性”新概念，为多模态大模型在强化学习时代的持续学习指明方向。

arXiv:2605.18903v1 Announce Type: new Abstract: Vision-Language Models in Continual Learning (VLM-CL) aim to continuously adapt to new multimodal task…

推理可移植性持续学习多模态大语言模型 rlvr 视觉语言模型

📝 深度技术 arXiv NLP 2026-05-20

Knowledge-to-Verification: Exploring RLVR for LLMs in Knowledge-Intensive Domains

探索强化学习与可验证奖励在知识密集型领域对LLM推理能力的提升，填补研究空白。

arXiv:2605.18261v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR) has demonstrated promising potential to enhance …

rlvr llm 知识密集型强化学习可验证奖励

📝 深度技术 arXiv 机器学习 2026-05-20

CodeScaler: Scaling Code LLM Training and Test-Time Inference via Reward Models

用奖励模型突破测试用例限制，实现代码大模型训练与推理阶段的可扩展强化学习。

arXiv:2602.17684v2 Announce Type: replace Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has driven recent progress in code large lan…

codescaler 奖励模型代码大模型 rlvr 训练缩放

📝 深度技术 arXiv 机器学习 2026-05-20

The Unlearnability Phenomenon in RLVR for Language Models

揭示RLVR训练中LLM对困难样本无法学习的反直觉现象，挑战现有认知

arXiv:2605.16787v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language …

rlvr 不可学习性语言模型强化学习推理能力

📝 深度技术 arXiv NLP 2026-05-19

Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR

提出双令牌约束方法，稳定知识并提升推理能力，解决RLVR中令牌均匀优化问题

arXiv:2507.15778v2 Announce Type: replace Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become an effective post-training method…

rlvr 强化学习大语言模型双令牌约束推理

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

📅 日期