牛哥精选 · 三个月

1

📝 深度技术 arXiv AI 2026-07-07

Parameter Efficient Multimodal Instruction Tuning for Romanian Vision Language Models

面向低资源语言罗马尼亚语的多模态指令微调，用参数高效方法实现视觉语言模型适配，填补非英语VLM研究空白。

arXiv:2512.14926v2 Announce Type: replace-cross Abstract: Focusing on low-resource languages is an essential step toward democratizing generative AI. …

视觉语言模型参数高效微调多模态指令微调低资源语言罗马尼亚语

2

📝 深度技术 arXiv 计算机视觉 2026-07-02

SpatialMosaic: A Multiview VLM Dataset for Partial Visibility

新数据集SpatialMosaic专攻部分可见场景，补全多视图VLM空间推理短板。

arXiv:2512.23365v4 Announce Type: replace Abstract: Recent progress in Multimodal Large Language Models (MLLMs) has enabled 3D scene understanding and…

spatialmos 多视图数据集视觉语言模型部分可见性空间推理

3

🤖 AI·大模型 arXiv 计算机视觉 2026-06-30

On Test-Time Scaling for Vision-Language Models

视觉语言模型在测试时也能通过缩放计算量提升性能，这篇论文揭示了新的缩放规律。

arXiv:2606.28864v1 Announce Type: new Abstract: Test-time scaling is a paradigm where large models use additional compute at inference to achieve bett…

测试时缩放视觉语言模型推理时间扩展推理计算性能提升

4

🤖 AI·大模型 arXiv AI 2026-06-26

Automating Potential-based Reward Shaping with Vision Language Model Guidance

用视觉语言模型自动设计基于势能的奖励函数，加速强化学习探索

arXiv:2606.27180v1 Announce Type: cross Abstract: Sparse rewards are inherently challenging for reinforcement learning agents as they lack intermediat…

视觉语言模型奖励塑形强化学习自动化势能函数

5

🤖 AI·大模型 arXiv NLP 2026-06-26

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

大型视觉语言模型重校准后生成更小模型，提升效率和精度，新技术论文。

arXiv:2506.15681v4 Announce Type: replace Abstract: Recent advancements in vision-language models (VLMs) have leveraged large language models (LLMs) t…

视觉语言模型知识蒸馏模型压缩再校准生成

6

🤖 AI·大模型 arXiv 计算机视觉 2026-06-23

Evaluation of Medical Vision Language Models HuluMed and MedGemma, and general purpose chatbots Gemma 3, ChatGPT Plus, and Claude Pro on real previously unseen wound images

真实伤口图像上评估医学视觉语言模型与通用聊天机器人，HuluMed、MedGemma、Gemma 3、ChatGPT Plus、Claude Pro谁更强？

arXiv:2606.20723v1 Announce Type: new Abstract: Chronic wound assessment remains a clinically challenging task that requires accurate interpretation o…

医学视觉语言模型伤口图像模型评估 hulumed medgemma

7

📝 深度技术 arXiv AI 2026-06-23

MEDLAYXPLAIN: Benchmarking the Expert-Lay Gap in Medical Vision-Language Models

新基准MEDLAYXPLAIN系统评估了33个医学视觉语言模型，揭示专家和外行在理解上的显著认知差距。

arXiv:2606.21194v1 Announce Type: cross Abstract: Medical Vision-Language Models (Med-VLMs) achieve strong expert-level performance, yet their ability…

医疗视觉语言模型专家-外行差距基准测试 ai诊断模型评估

8

📝 深度技术 arXiv 机器学习 2026-06-18

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

用全景画布统一多视图特征，无需复杂几何编码器，实现轻量级3D场景理解。

arXiv:2606.19253v1 Announce Type: cross Abstract: Existing approaches to 3D scene understanding in Vision-Language Models (VLMs) either rely on comple…

3d场景理解全景重投影视觉语言模型空间推理特征聚合

9

📝 深度技术 arXiv AI 2026-06-17

Mordal: Automated Pretrained Model Selection for Vision Language Models

自动化选择视觉语言模型预训练方案，提升多模态任务效率

arXiv:2502.00241v2 Announce Type: replace-cross Abstract: Incorporating multiple modalities into large language models (LLMs) is a powerful way to enh…

视觉语言模型自动模型选择多模态预训练模型 vlm

10

📝 深度技术 arXiv AI 2026-06-12

Analyzing and Improving Fine-grained Preference Optimization in Medical LVLMs

医学LVLM细粒度偏好优化分析与改进方案，论文提出新方法提升模型性能。

arXiv:2606.12590v1 Announce Type: cross Abstract: Large Vision-Language Models (LVLMs) have achieved strong performance across medical imaging tasks, …

医学大型视觉语言模型偏好优化细粒度 arxiv

11

📝 深度技术 arXiv 计算机视觉 2026-06-11

How Auxiliary Reasoning Unleashes GUI Grounding in VLMs

VLMs在GUI接地任务中隐藏巨大潜力，辅助推理能有效释放这一能力，突破当前优化瓶颈。

arXiv:2509.11548v2 Announce Type: replace Abstract: Graphical user interface (GUI) grounding is a fundamental task for building GUI agents. However, g…

视觉语言模型 gui接地辅助推理 ai大模型潜在能力

12

🤖 AI·大模型 arXiv 计算机视觉 2026-06-11

VL-DINO: Leveraging CLIP Vision-Language Knowledge for Open-Vocabulary Object Detectio

利用CLIP的视觉语言先验增强DINO检测器，提出名为VL-DINO的开放词汇目标检测新方法。

arXiv:2606.11546v1 Announce Type: new Abstract: Vision-language models like CLIP can provide rich semantic priors for open-vocabulary object detection…

vl-dino 开放词汇检测 clip 视觉语言模型 dino

13

📝 深度技术 arXiv 机器学习 2026-06-11

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

用冻结视觉语言模型实现前瞻性安全强化学习，让机器人在碰撞前就能预判危险

arXiv:2606.11266v1 Announce Type: new Abstract: The cost signal that constrained-RL algorithms optimize against is almost always reactive: the simulat…

安全强化学习冻结视觉语言模型前瞻性决策碰撞避免约束优化

14

📝 深度技术 arXiv AI 2026-06-11

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

发现多数视觉指令样本可通过语言模式解决，提出无需训练的数据选择方法提升跨模态学习

arXiv:2603.09715v2 Announce Type: replace Abstract: Visual instruction tuning is crucial for improving vision-language large models (VLLMs). However, …

视觉语言模型数据选择指令微调跨模态推理训练效率

15

🤖 AI·大模型 arXiv 计算机视觉 2026-06-10

Kwai Keye-VL-2.0 Technical Report

快手发布Keye-VL-2.0多模态大模型技术报告，31页详解架构与训练细节

arXiv:2606.10651v1 Announce Type: new Abstract: We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation m…

多模态大模型快手视觉语言模型技术报告 keye-vl

16

🤖 AI·大模型 arXiv 计算机视觉 2026-06-10

Let ViT Speak: Generative Language-Image Pre-training

ViT也能开口说话？全新生成式语言-图像预训练框架，让视觉与语言深度融合！

arXiv:2605.00809v2 Announce Type: replace Abstract: In this paper, we present \textbf{Gen}erative \textbf{L}anguage-\textbf{I}mage \textbf{P}re-traini…

vit 多模态预训练生成式语言-图像视觉transfor 跨模态

17

🤖 AI·大模型 arXiv 机器学习 2026-06-09

Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization

无人机低空经济网络如何用LLM优化机载视觉语言推理？新方案实现高效多模态实时推断。

arXiv:2510.10028v2 Announce Type: replace Abstract: The rapid advancement of Low-Altitude Economy Networks (LAENets) has enabled a variety of applicat…

视觉语言模型无人机低空经济 llm优化机载推理

18

🤖 AI·大模型 arXiv AI 2026-06-08

MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs

ICML 2026新研究：MoDA调制适配器提升教学型多模态LLM的细粒度视觉定位能力。

arXiv:2506.01850v2 Announce Type: replace-cross Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in instruction-fol…

moda 调制适配器细粒度视觉定位教学型多模态大模型 icml 2026

19

🤖 AI·大模型 arXiv AI 2026-06-08

MotionEnhancer: Leveraging Video Diffusion for Motion-Enhanced Vision-Language Models

让视觉语言模型看懂动作——利用视频扩散模型注入运动信息，提升动态场景理解能力，CVPR 2026接收。

arXiv:2606.06853v1 Announce Type: cross Abstract: The new era has witnessed a remarkable capability to extend Vision-Language Models (VLMs) for tackli…

视频扩散模型视觉语言模型运动增强 cvpr 2026 机器学习

20

📝 深度技术 arXiv 计算机视觉 2026-06-05

VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation

利用同策略蒸馏将大语言模型的推理能力高效迁移至视觉语言模型，显著提升图文理解与推理表现。

arXiv:2510.23497v3 Announce Type: replace Abstract: Training vision-language models (VLMs) for complex reasoning remains a challenging task, i.a. due …

知识蒸馏视觉语言模型大语言模型推理迁移方法论文

🐂 牛哥精选