牛哥精选 · 三个月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv 机器学习 2026-06-01

Learning a Zeroth-Order Optimizer for Fine-Tuning LLMs

提出可学习的零阶优化器，无需梯度即可高效微调大模型，大幅降低内存开销。

arXiv:2510.00419v2 Announce Type: replace Abstract: Zeroth-order optimizers have recently emerged as an attractive approach for fine-tuning large lang…

零阶优化大模型微调梯度-free优化内存优化 llm

🤖 AI·大模型 arXiv NLP 2026-06-01

dMoE: dLLMs with Learnable Block Experts

dMoE提出可学习块专家机制，为大型语言模型混合专家设计提供新思路，架构简洁高效。

arXiv:2605.30876v1 Announce Type: new Abstract: Diffusion Large Language Models (dLLMs) have recently emerged as a promising alternative to autoregres…

dmoe 可学习块专家混合专家模型大语言模型架构创新

📝 深度技术 arXiv AI 2026-05-28

Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning

通过pass-rate加权自蒸馏，恢复LLM推理的“甜蜜点”，破解GRPO归一化带来的学习偏差。

arXiv:2605.27765v1 Announce Type: cross Abstract: Self-Distillation Policy Optimization (SDPO) provides dense token-level credit assignment for reinfo…

自蒸馏 llm推理 grpo 优势归一化可学习性

📝 深度技术 arXiv 机器学习 2026-05-25

Nonlinear Transformations Against Unlearnable Datasets

非线性变换防御不可学习数据集，对抗数据爬取，保护隐私的学术新方法

arXiv:2406.02883v2 Announce Type: replace Abstract: Automated scraping stands out as a common method for collecting data in deep learning models witho…

非线性变换不可学习数据集隐私保护对抗爬取 deepconfus

🤖 AI·大模型 arXiv 机器学习 2026-05-20

STRIDE: Learnable Stepwise Language Feedback for LLM Reasoning

提出可学习的逐步语言反馈机制STRIDE，让LLM在推理过程中自动修正错误，提升复杂推理任务准确性。

arXiv:2605.18851v1 Announce Type: new Abstract: Recent advances in Reinforcement Learning (RL) have underscored its potential for incentivizing reason…

大语言模型推理增强反馈学习 stride 逐步推理

📝 深度技术 arXiv 计算机视觉 2026-05-20

The Learnability Gap in Medical Latent Diffusion

医学影像生成新挑战：揭示Latent Diffusion模型在医学数据上的可学习性差距，推动更可靠的AI诊断工具发展。

arXiv:2605.17087v1 Announce Type: new Abstract: Generative data augmentation with latent diffusion models is a promising strategy for addressing class…

医学图像扩散模型潜在扩散可学习性差距深度学习

📝 深度技术 arXiv 机器学习 2026-05-20

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

揭示自我对弈仅在自合成数据提供可学习信息增益时才有效演化，为AI训练策略提供关键理论指导。

arXiv:2603.02218v2 Announce Type: replace Abstract: Large language models (LLMs) make it plausible to build systems that improve through self-evolving…

self-play 自合成管线可学习信息增益 ai训练理论分析

📝 深度技术 arXiv 机器学习 2026-05-20

LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models

提出LEAP可学习端到端自适应剪枝方法，在保持大语言模型性能的同时实现高效压缩

arXiv:2605.17289v1 Announce Type: new Abstract: Unstructured sparsity is now natively accelerated by recent GPU kernels and dataflow hardware, shiftin…

leap 大语言模型自适应剪枝端到端可学习

📝 深度技术 arXiv 机器学习 2026-05-20

The Unlearnability Phenomenon in RLVR for Language Models

揭示RLVR训练中LLM对困难样本无法学习的反直觉现象，挑战现有认知

arXiv:2605.16787v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language …

rlvr 不可学习性语言模型强化学习推理能力

📝 深度技术 arXiv 机器学习 2026-05-20

Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

探讨Chain-of-Thought验证器的在线可学习性，深入分析正确性与完备性间的权衡关系。

arXiv:2603.03538v3 Announce Type: replace Abstract: Large Language Models (LLMs) with chain-of-thought generation have demonstrated great potential fo…

chain-of-t 验证器可学习性正确性完备性

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

📅 日期