牛哥精选 · 三个月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv AI 2026-06-23

Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training

揭示LLM自我训练中"先升后崩"的失败模式，为模型优化后的退化问题提供关键机理分析

arXiv:2606.21090v1 Announce Type: new Abstract: Self-improvement can self-regress. In REINFORCE post-training for code, a model can quickly improve on…

llm自我训练后训练模型崩溃 reinforce 优化陷阱

📝 深度技术 arXiv 机器学习 2026-05-21

Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies

这篇论文颠覆了自我训练使语言扁平化的传统认知，揭示其本质是牺牲深层句法来放大表面标记的结构重构过程

arXiv:2605.20602v1 Announce Type: cross Abstract: Successive self-training on a language model's own outputs is widely characterized as a process of f…

自我训练语言模型深层语法表面标记模型塌陷

🤖 AI·大模型 arXiv AI 2026-05-19

A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning

无需外部奖励，LLM仅靠自身采样响应训练就能提升推理能力？SePT方法实现自我进化！

arXiv:2510.18814v3 Announce Type: replace-cross Abstract: Can language models improve their reasoning performance without external rewards, using only…

llm推理自我训练无奖励 sept 后训练

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training

Self-Training Doesn't Flatten Language -- It Restructures It: Surface Markers Amplify While Deep Syntax Dies

A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning

📅 日期