牛哥精选 · 三个月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv AI 2026-05-19

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

突破二元奖励局限，让语言模型在推理中学会表达自身不确定性，提升可解释性和可靠性。

arXiv:2507.16806v2 Announce Type: replace-cross Abstract: When language models (LMs) are trained via reinforcement learning (RL) to generate natural l…

语言模型强化学习推理不确定性估计二元奖励

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

📅 日期