牛哥精选 · 本月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv AI 2026-05-23

Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

提出自进化元认知策略优化方法，让LLM红队测试更智能高效地发现安全漏洞。

arXiv:2605.10067v3 Announce Type: replace-cross Abstract: Red teaming is critical for uncovering vulnerabilities in Large Language Models (LLMs). Whil…

红队测试 llm安全元学习越狱攻击自我进化

🤖 AI·大模型 arXiv AI 2026-05-23

One-Way Policy Optimization for Self-Evolving LLMs

提出单向策略优化方法，让大模型在无外反馈下自我进化，提升推理与对齐能力。

arXiv:2605.22156v1 Announce Type: cross Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a promising paradigm for scaling re…

llm 策略优化自我进化强化学习大语言模型

📝 深度技术 arXiv NLP 2026-05-22

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

策略优化新范式：训练阶段注入多样性，显著提升测试时搜索性能

arXiv:2605.22817v1 Announce Type: cross Abstract: Language models must now generalize out of the box to novel environments and work inside inference-s…

vector pol 多样性训练测试时搜索强化学习策略优化

📝 深度技术 arXiv NLP 2026-05-20

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

提出LambdaPO框架，用lambda算子优化推理语言模型策略，显著提升逻辑推理能力。

arXiv:2605.19416v1 Announce Type: new Abstract: Group Relative Policy Optimization(GRPO) has become a cornerstone of modern reinforcement learning ali…

lambdapo 策略优化推理语言模型 lambda演算强化学习

📝 深度技术 arXiv 机器学习 2026-05-20

TEMPO: Temporal Enforcement via Mode-Separated Policy Optimization for Trustworthy LLM Backtesting

LLM回测中时间泄漏的顽疾有了新解法，TEMPO通过模式分离策略优化确保评估可信度

arXiv:2605.18843v1 Announce Type: new Abstract: Backtesting large language models on historical events requires reasoning exclusively from information…

llm回测时间泄漏策略优化可信评估信息边界

📝 深度技术 arXiv 机器学习 2026-05-20

Constrained Policy Optimization via Sampling-Based Weight-Space Projection

提出采样式权重空间投影方法，高效解决约束策略优化问题，已被IFAC 2026收录

arXiv:2512.13788v2 Announce Type: replace Abstract: Safety-critical learning requires policies that improve performance without leaving the safe opera…

约束策略优化采样投影权重空间 ifac 2026 强化学习

📝 深度技术 arXiv 机器学习 2026-05-20

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

COOPO算法提出循环离线-在线策略优化，巧妙解决分布偏移与灾难性遗忘难题，为强化学习混合范式带来新突破。

arXiv:2605.18675v1 Announce Type: new Abstract: Offline reinforcement learning struggles with distributional shift and constrained performance due to …

coopo 强化学习离线在线混合策略优化分布偏移

📝 深度技术 arXiv 机器学习 2026-05-19

TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning

用结构化模板引导强化学习，让LLM推理训练告别低效自采样，提升策略可迁移性。

arXiv:2505.15692v5 Announce Type: replace-cross Abstract: Reinforcement learning (RL) has emerged as an effective paradigm for enhancing model reasoni…

templaterl 强化学习 llm推理结构化模板策略优化

🤖 AI·大模型 arXiv AI 2026-05-19

ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization

提出序数分解离散奖励的ODRPO方法，提升LLM对齐中策略优化的鲁棒性，直面自动评分器的随机挑战。

arXiv:2605.12667v2 Announce Type: replace-cross Abstract: The alignment of Large Language Models (LLMs) utilizes Reinforcement Learning from AI Feedba…

odrpo 离散奖励策略优化强化学习大语言模型

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

📅 日期