牛哥精选 · 三个月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv AI 2026-05-27

Trust Region Q Adjoint Matching

强化学习新突破：信任区域与Q学习的巧妙融合，伴随匹配算法提升训练稳定性

arXiv:2605.27079v1 Announce Type: cross Abstract: Off-policy reinforcement learning of pretrained flow policies remains challenging due to the instabi…

信任区域 q学习伴随匹配强化学习优化算法

📝 深度技术 arXiv AI 2026-05-19

Deep Double Q-learning

经典Double Q-learning的深度强化学习新范式，通过完全解耦动作选择与评估彻底消除最大化偏差。

arXiv:2507.00275v2 Announce Type: replace-cross Abstract: Double Q-learning is a classical control algorithm that mitigates the maximization bias of Q…

深度双q学习强化学习去偏置深度强化学习价值函数

📝 深度技术 arXiv 机器学习 2026-05-19

A Multi-Layer Cloud-IDS Pipeline with LLM and Adaptive Q-Learning Calibration

云安全新思路：将LLM与自适应Q学习结合，构建多层云端入侵检测流水线，应对未知攻击。

arXiv:2605.15889v1 Announce Type: cross Abstract: Security in cloud computing has become a major concern due to several factors such as layered cloud …

云安全入侵检测大语言模型强化学习 q学习

🤖 AI·大模型 arXiv AI 2026-05-19

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

将Q学习与有向无环图记忆追溯结合，让LLM智能体学会自动评估记忆价值，实现自演化记忆机制。

arXiv:2605.08374v3 Announce Type: replace Abstract: Episodic memory allows LLM agents to accumulate and retrieve experience, but current methods treat…

llm 内存管理强化学习 q学习有向无环图

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

Trust Region Q Adjoint Matching

Deep Double Q-learning

A Multi-Layer Cloud-IDS Pipeline with LLM and Adaptive Q-Learning Calibration

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

📅 日期