牛哥精选 · 本周

1

📝 深度技术 arXiv AI 2026-05-22

AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents

魔幻庄园式评测，专测LLM代理能否在陌生工具场景下自主推理与修正操作。

arXiv:2605.07926v2 Announce Type: replace Abstract: As LLM-based agents increasingly rely on external tools, it is important to evaluate their ability…

agentescap llm代理工具推理域外泛化基准测试

2

🤖 AI·大模型 arXiv NLP 2026-05-20

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

被ICML 2026收录，提出针对低资源语言的LLM鲁棒多语言适配方法，增强跨语言泛化能力。

arXiv:2510.14466v3 Announce Type: replace Abstract: Large language models (LLMs) continue to struggle with low-resource languages, primarily due to li…

低资源语言多语言大模型鲁棒适配跨语言泛化 icml 2026

3

📝 深度技术美团技术团队 2026-05-20

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

首次定义具身动作表征的ImageNet基准，揭示人类视频数据可驱动机器人泛化学习。

LARYBench （Latent Action Representation Yielding Benchmark），一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明：在动作泛化和控制精度上，通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型，具身动作表征…

larybench 具身智能动作表征人类视频泛化学习

4

📝 深度技术 arXiv NLP 2026-05-20

Disentangling generalization and memorization in large language models using chess

用国际象棋棋局拆解大模型的记忆与推理边界，揭示模型何时是在背诵、何时真的在推演。

arXiv:2601.16823v2 Announce Type: replace Abstract: Large Language Models (LLMs) exhibit remarkable capabilities, yet it remains unclear to what exten…

大语言模型泛化与记忆国际象棋推理能力受控测试

5

📝 深度技术 arXiv NLP 2026-05-20

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

用脆性测试揭秘语言模型下象棋：是真正理解规则还是死记硬背？

arXiv:2605.17565v1 Announce Type: cross Abstract: Recent work has fine-tuned language models on chess data and reported high benchmark scores as evide…

语言模型象棋泛化记忆脆性测试

6

📝 深度技术 arXiv 机器学习 2026-05-20

Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights

从理论层面揭示Transformer在噪声与任务级流形上的学习能力，近似与泛化分析带来新洞察

arXiv:2505.03205v3 Announce Type: replace Abstract: Transformers serve as the foundational architecture for large language and video generation models…

transforme 噪声流形任务级流形泛化理论近似理论

7

📝 深度技术 arXiv 机器学习 2026-05-20

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

首个泛化感知基准评估GPU内核优化代理，推动自动调优技术落地。

arXiv:2605.16819v1 Announce Type: cross Abstract: GPU kernel optimization is increasingly critical for efficient deep learning systems, but writing hi…

gpu内核优化基准测试泛化感知自动调优 ai代理

8

📝 深度技术 arXiv 机器学习 2026-05-20

Pointwise Generalization in Deep Neural Networks

深度神经网络泛化理论新视角，揭示点态泛化机制，突破传统平均泛化分析局限。

arXiv:2605.18598v1 Announce Type: new Abstract: We address the fundamental question of why deep neural networks generalize by establishing a pointwise…

深度神经网络点态泛化泛化理论机器学习理论 arxiv论文

9

🤖 AI·大模型 arXiv 机器学习 2026-05-20

Language models struggle with compartmentalization

大模型面对同一概念的不同语言或编码形式时，会表现出“分隔化”现象，揭示其泛化能力的缺陷。

arXiv:2605.19284v1 Announce Type: cross Abstract: In the training data used by large language models (LLMs), the same latent concept is often presente…

大语言模型分隔化跨语言泛化多模态表示概念学习

10

📝 深度技术 arXiv 机器学习 2026-05-20

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

机器人基础模型新突破：通用姿态预训练让视觉-语言-动作策略泛化能力飙升，已被RSS 2026接收。

arXiv:2602.19710v2 Announce Type: replace-cross Abstract: Existing Vision-Language-Action (VLA) models often suffer from feature collapse and low trai…

通用姿态预训练视觉语言动作策略机器人基础模型 rss 2026 泛化性

11

📝 深度技术 arXiv 机器学习 2026-05-20

ARROW: Augmented Replay for RObust World models

提出ARROW增强回放框架，显著提升世界模型在分布外场景的鲁棒性。

arXiv:2603.11395v2 Announce Type: replace Abstract: Continual reinforcement learning challenges agents to acquire new skills while retaining previousl…

世界模型增强回放鲁棒性强化学习模型泛化

12

📝 深度技术 arXiv 机器学习 2026-05-20

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

超越正确性：通过强化学习调和过程与结果奖励，为模型训练提供新视角

arXiv:2509.03403v2 Announce Type: replace Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) improves final-answer accuracy on reasoning …

强化学习过程奖励结果奖励 rl训练泛化

13

📝 深度技术 arXiv 机器学习 2026-05-20

The Neural Tangent Kernel for Classification

深入探讨神经正切核在分类任务中的理论分析，为神经网络泛化研究提供新视角。

arXiv:2605.17606v1 Announce Type: new Abstract: In wide neural networks, the Neural Tangent Kernel (NTK) remains approximately constant during trainin…

神经正切核分类神经网络理论泛化

14

📝 深度技术 arXiv AI 2026-05-20

Toward Privileged Foundation Models:LUPI for Accelerated and Improved Learning

新框架PIQL利用特权信息同时加速表格基础模型训练并提升泛化能力。

arXiv:2605.07799v2 Announce Type: replace-cross Abstract: Training foundation models is computationally intensive and often slow to converge. We intro…

特权信息基础模型表格数据加速学习泛化

15

📝 深度技术 arXiv AI 2026-05-20

Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry

用矩阵空间抽象局部转移几何，强化学习实现组合泛化新范式。

arXiv:2605.14304v1 Announce Type: cross Abstract: Compositional generalization in sequential decision-making requires identifying which parts of prior…

强化学习矩阵空间局部转移几何组合泛化正定矩阵

16

📝 深度技术 OpenAI 官方博客 2026-05-20

Gotta Learn Fast: A new benchmark for generalization in RL

OpenAI发布强化学习泛化新基准，加速AI在复杂环境中的快速适应能力。

强化学习泛化基准测试 openai ai研究

17

📝 深度技术 arXiv 机器学习 2026-05-20

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation

策略性过参数化提升低秩适应泛化能力，为参数高效微调提供新理论。

arXiv:2605.16470v1 Announce Type: new Abstract: Adapting large language models (LLMs) to downstream tasks via full fine-tuning is increasingly impract…

低秩适应过参数化泛化参数高效微调深度学习

18

📝 深度技术 arXiv AI 2026-05-20

AIM-DDI: A Model-Agnostic Multimodal Integration Module for Drug-Drug Interaction Prediction

无需修改现有模型即可融合多种药物信息，大幅提升对未见过药物的相互作用预测能力，AI+生物医药交叉的前沿研究。

arXiv:2605.14327v1 Announce Type: cross Abstract: Drug-drug interaction (DDI) prediction is a critical task in computational biomedicine, as adverse i…

药物-药物相互作用预多模态融合模型无关未见药物泛化计算生物医学

19

📝 深度技术 arXiv AI 2026-05-20

TAPIOCA: Why Task- Aware Pruning Improves OOD model Capability

探究任务感知剪枝如何提升模型在分布外数据上的表现，揭示内在机制

arXiv:2605.14738v1 Announce Type: cross Abstract: Recent work has promoted task-aware layer pruning as a way to improve model performance on particula…

任务感知剪枝 ood泛化多项式回归大语言模型模型压缩

20

📝 深度技术 arXiv 计算机视觉 2026-05-19

ReAlign: Generalizable Image Forgery Detection via Reasoning-Aligned Representation

提出ReAlign方法，通过推理对齐表征实现高泛化性的AI生成图像伪造检测

arXiv:2605.16080v1 Announce Type: new Abstract: The rise of AI-generated images (AIGIs) poses growing challenges for digital authenticity, prompting t…

图像伪造检测 ai生成图像泛化性推理对齐计算机视觉

🐂 牛哥精选

AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents

Toward Robust Multilingual Adaptation of LLMs for Low-Resource Languages

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

Disentangling generalization and memorization in large language models using chess

Generalization or Memorization? Brittleness Testing for Chess-Trained Language Models

Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights

AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

Pointwise Generalization in Deep Neural Networks

Language models struggle with compartmentalization

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

ARROW: Augmented Replay for RObust World models

Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

The Neural Tangent Kernel for Classification

Toward Privileged Foundation Models:LUPI for Accelerated and Improved Learning

Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry

Gotta Learn Fast: A new benchmark for generalization in RL

Strategic Over-Parameterization for Generalizable Low-Rank Adaptation

AIM-DDI: A Model-Agnostic Multimodal Integration Module for Drug-Drug Interaction Prediction

TAPIOCA: Why Task- Aware Pruning Improves OOD model Capability

ReAlign: Generalizable Image Forgery Detection via Reasoning-Aligned Representation

📅 日期