牛哥精选 · 三个月

1

🤖 AI·大模型 arXiv 计算机视觉 2026-07-14

AeroRAG: Structured Multimodal Retrieval-Augmented LLM for Fine-Grained Aerial Visual Reasoning

新型多模态检索增强框架让大模型精准理解航拍图像细节，解决细粒度视觉推理难题。

arXiv:2604.17889v2 Announce Type: replace Abstract: Despite recent progress in multimodal large language models (MLLMs), reliable visual question answ…

aerorag 多模态检索增强细粒度视觉推理航空图像大语言模型

2

📝 深度技术 arXiv AI 2026-07-14

Evidence-Backed Video Question Answering

一篇关于视频问答的创新论文，强调利用证据推理来提升答案的准确性与可解释性。

arXiv:2607.11862v1 Announce Type: cross Abstract: Current Video Large Language Models (Video LLMs) excel in question answering (QA) but largely operat…

视频问答证据支持视觉推理多模态计算机视觉

3

📝 深度技术 arXiv NLP 2026-07-08

BabyVision: Visual Reasoning Beyond Language

突破语言束缚，BabyVision让视觉推理不再依赖文字，打造更接近人类婴儿的纯视觉认知能力。

arXiv:2601.06521v2 Announce Type: replace-cross Abstract: While humans develop core visual skills long before acquiring language, contemporary Multimo…

babyvision 视觉推理无语言推理多模态 ai模型

4

🤖 AI·大模型 arXiv AI 2026-07-08

Segmentation before Answering: Pixel Grounding for MLLM Visual Reasoning

提出「先分割再回答」新范式，让多模态大模型在视觉推理中实现像素级精准定位

arXiv:2607.05798v1 Announce Type: cross Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have evolved from static perception …

多模态大模型视觉推理像素定位语义分割 mllm

5

🤖 AI·大模型 arXiv 机器学习 2026-07-02

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning

VisReason数据集带来视觉推理新突破，大规模多步骤链式思维数据推动多模态AI发展。

arXiv:2511.17731v2 Announce Type: replace-cross Abstract: Chain-of-Thought (CoT) prompting has proven remarkably effective for eliciting complex reaso…

visreason 视觉链式推理大规模数据集多步骤推理视觉推理

6

🤖 AI·大模型 arXiv 计算机视觉 2026-07-01

CoLT: Teaching Multi-Modal Models to Think with Chain of Latent Thoughts

多模态大模型推理新范式CoLT，用潜在思维链替代文本推理，大幅提升视觉推理速度。

arXiv:2606.31986v1 Announce Type: new Abstract: Chain-of-thought (CoT) reasoning has enabled multi-modal large language models (MLLMs) to tackle compl…

多模态大模型链式思维推理潜在思维视觉推理 colt

7

📝 深度技术 arXiv 计算机视觉 2026-06-29

Understanding How MLLMs Describe Artworks Using Token Activation Maps

揭示多模态大模型描述艺术品时的视觉推理机制，用token激活映射解读模型如何“看”画。

arXiv:2606.27947v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) describe artworks with remarkable fluency, yet the visual rea…

多模态大模型 ai可解释性视觉推理 token激活映射艺术分析

8

🤖 AI·大模型 arXiv 计算机视觉 2026-06-23

Faithful Grounded Visual Reasoning via Learned Proxy-Tokens

提出通过可学习的代理令牌实现忠实的基础视觉推理，破解多模态大模型在视觉问答中的黑盒困境，增强可解释性。

arXiv:2606.23354v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in Visual Question Answering…

多模态大模型视觉问答可解释性 gvr 代理令牌

9

📝 深度技术 arXiv 计算机视觉 2026-06-19

Vision-Reasoning-Guided Occlusion Removal from Light Fields

光场如何用视觉推理攻克自然场景密集遮挡？新方法提出遮挡鲁棒的场景恢复方案。

arXiv:2606.19985v1 Announce Type: new Abstract: Occlusion-robust scene recovery remains a major challenge in computational imaging, particularly in na…

光场遮挡去除视觉推理场景恢复计算成像

10

🤖 AI·大模型 arXiv 计算机视觉 2026-06-12

Language-Guided Abstraction for Visual Reasoning

提出语言引导抽象方法，攻克抽象推理基准ARC，让AI视觉推理更接近AGI。

arXiv:2606.12847v1 Announce Type: new Abstract: The Abstraction and Reasoning Corpus (ARC) is viewed as a critical avenue to Artificial General Intell…

arc agi 视觉推理语言引导抽象推理

11

🤖 AI·大模型 arXiv AI 2026-06-12

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

PaLMR通过多模态过程对齐实现可信视觉推理，提升大模型对图像的理解与逻辑一致性。

arXiv:2603.06652v2 Announce Type: replace-cross Abstract: Reinforcement learning has recently improved the reasoning ability of Large Language Models …

视觉推理多模态对齐可信ai 大语言模型过程监督

12

📝 深度技术 arXiv NLP 2026-06-09

Symbolic and Abstractive Reasoning with Complex Visual Queries

研究如何让AI处理复杂视觉查询中的符号与抽象推理，推动多模态大模型认知能力边界

arXiv:2606.09195v1 Announce Type: new Abstract: Understanding and reasoning over abstract visual content remains a challenge for current multi-modal l…

视觉推理符号推理抽象推理复杂视觉查询多模态大模型

13

🤖 AI·大模型 arXiv 计算机视觉 2026-06-09

DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning

突破传统结果优化，动态跨模态协调强化学习提升视觉推理性能

arXiv:2606.08035v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a leading paradigm for enhancing …

强化学习视觉推理多模态大模型跨模态协调 rlvr

14

📝 深度技术 arXiv NLP 2026-06-09

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

探讨想象力如何辅助视觉推理，并揭示其在隐空间中的局限性，为多模态AI研究提供新视角。

arXiv:2602.22766v2 Announce Type: replace Abstract: Latent visual reasoning aims to mimic human's imagination process by meditating through hidden sta…

视觉推理潜空间想象机制认知智能深度学习

15

📝 深度技术 arXiv 计算机视觉 2026-06-05

Imagine Before You Predict: Interleaved Latent Visual Reasoning for Video Event Prediction

先想象再预测：论文提出交错潜在视觉推理新方法，提升视频事件预测准确性与可解释性。

arXiv:2606.05769v1 Announce Type: new Abstract: Video event prediction (VEP) requires models to infer unobserved future states from partial video evid…

视频事件预测潜在视觉推理交错推理视频理解 ai方法

16

📝 深度技术 arXiv 计算机视觉 2026-06-02

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

把文本思维链渲染成图像，让大模型通过视觉潜在推理实现更高效的思考，ACL 2026主会收录的新范式。

arXiv:2601.14750v4 Announce Type: replace-cross Abstract: Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning …

思维链视觉推理文本渲染潜在推理 acl 2026

17

🤖 AI·大模型 arXiv AI 2026-06-02

LookWise: Knowing When and Where to Look for Fine-Grained Visual Reasoning in Multimodal Large Language Models

无需训练的轻量级视觉推理方法LookWise，让多模态大模型更高效地“细看”图像细节

arXiv:2603.00171v3 Announce Type: replace-cross Abstract: Multimodal Large Language Models (MLLMs) are shifting towards "Thinking with Images" by acti…

多模态大模型视觉推理训练免费细粒度理解计算效率

18

📝 深度技术 arXiv AI 2026-06-02

StemBind: When MLLMs Get Lost Between Rules and Instances in Abstract Visual Reasoning

多模态大模型能看懂抽象图案却选不对答案，揭示规则与实例之间的认知鸿沟

arXiv:2606.00148v1 Announce Type: cross Abstract: Multimodal large language models (MLLMs) often know the rule but pick the wrong answer: on abstract …

mllms 抽象视觉推理规则推理实例匹配基准缺陷

19

🤖 AI·大模型量子位 2026-05-28

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

7B参数医学AI智能体Ophiuchus让模型学会主动观察和修正诊断，性能超越o3、GPT-5

医学AI Agent到了关键拐点

打败医学智能体让模型学会看哪里

20

📝 深度技术 arXiv 机器学习 2026-05-23

VRPRM: Process Reward Modeling via Visual Reasoning

通过视觉推理提升过程奖励建模精度，为复杂任务训练提供新思路。

arXiv:2508.03556v3 Announce Type: replace Abstract: Process Reward Model (PRM) is widely used in the post-training of Large Language Model (LLM) becau…

过程奖励模型视觉推理多步推理奖励信号模型训练

🐂 牛哥精选