牛哥精选 · 所有

📋 全部 ☁️ 云服务 🤖 AI 平台 🔗 API 中转 🔐 安全/认证 💳 支付 📧 通讯 📊 数据分析 🖼 媒体处理 🌐 域名/DNS

🤖 AI·大模型 arXiv AI 2026-07-01

LLM-Empowered Agentic MAC Protocols: A Dynamic Stackelberg Game Approach

用大模型重塑无线网络MAC协议，以动态Stackelberg博弈提升泛化与韧性，告别DRL高成本重训。

arXiv:2510.10895v2 Announce Type: replace Abstract: Medium Access Control (MAC) protocols, essential for wireless networks, are typically manually con…

llm mac协议无线网络 stackelber 深度强化学习

🤖 AI·大模型 arXiv AI 2026-06-23

An LLM-Explainable DRL Framework for Passenger-Directed Autonomous Driving

LLM 赋能深度强化学习，让自动驾驶决策向乘客解释透明。

arXiv:2606.20640v1 Announce Type: new Abstract: Autonomous vehicles offer the potential for safer and more efficient mobility, yet public trust remain…

llm 可解释性 drl 自动驾驶框架

📝 深度技术 arXiv AI 2026-05-20

Critic-Driven Voronoi-Quantization for Distilling Deep RL Policies to Explainable Models

介绍一种批评驱动Voronoi量化方法，实现深度强化学习策略向可解释模型的高效蒸馏，解决性能-可解释性权衡难题。

arXiv:2605.14897v1 Announce Type: cross Abstract: Despite many successful attempts at explaining Deep Reinforcement Learning policies using distillati…

深度强化学习策略蒸馏可解释模型 voronoi量化批评驱动

📝 深度技术 arXiv 机器学习 2026-05-19

An Introduction to Deep Reinforcement and Imitation Learning

系统介绍深度强化学习与模仿学习，面向具身智能体复杂决策问题，是入门该领域的高质量综述。

arXiv:2512.08052v3 Announce Type: replace-cross Abstract: Embodied agents, such as robots and virtual characters, must continuously select actions to …

深度强化学习模仿学习具身智能机器人决策

📝 深度技术 arXiv AI 2026-05-19

Deep Double Q-learning

经典Double Q-learning的深度强化学习新范式，通过完全解耦动作选择与评估彻底消除最大化偏差。

arXiv:2507.00275v2 Announce Type: replace-cross Abstract: Double Q-learning is a classical control algorithm that mitigates the maximization bias of Q…

深度双q学习强化学习去偏置深度强化学习价值函数

🤖 AI·大模型 OpenAI 官方博客 2026-05-19

Spinning Up in Deep RL: Workshop review

OpenAI首次深度强化学习教育工作坊回顾，亮点在于Spinning Up项目的实践教学与社区反响。

On February 2, we held our first Spinning Up Workshop as part of our new education initiative at OpenAI.

spinning u 深度强化学习 openai 教育工作坊 ai教育

📅 日期

2026-05-20 2026-05-19