牛哥精选 · 半年

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv AI 2026-06-23

Inverting the Bellman Equation: From $Q$-Values to World Models

从Q值反向推导世界模型，逆Bellman方程新方法带来强化学习理论突破。

arXiv:2606.21173v1 Announce Type: cross Abstract: Model-based and model-free reinforcement learning are traditionally viewed as separate paradigms: in…

强化学习贝尔曼方程 q值世界模型逆问题

🤖 AI·大模型 arXiv 机器学习 2026-05-21

rePIRL: Learn PRM with Inverse RL for LLM Reasoning

用逆强化学习从推理轨迹中自动学习过程奖励模型，有效提升大语言模型的复杂推理能力。

arXiv:2602.07832v2 Announce Type: replace Abstract: Process rewards have been widely used in deep reinforcement learning to improve training efficienc…

逆强化学习过程奖励模型大语言模型推理 prm

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

Inverting the Bellman Equation: From $Q$-Values to World Models

rePIRL: Learn PRM with Inverse RL for LLM Reasoning

📅 日期