牛哥精选 · 所有

1

🤖 AI·大模型 arXiv 计算机视觉 2026-07-13

SigLIP-HD by Fine-to-Coarse Supervision

从粗到细监督实现高效高分辨率视觉表示，SigLIP-HD在处理多模态大模型时兼顾计算效率与细粒度特征。

arXiv:2607.09488v1 Announce Type: new Abstract: High-quality visual representation is a long-standing pursuit in computer vision. In the context of mu…

视觉表示高分辨率多模态大模型监督学习计算效率

2

📝 深度技术 IT 之家 2026-07-06

HBM 之父金正浩：AI 的本质是内存，GPU 真正工作的时间只有 10%-30%

HBM之父一语道破：AI计算的真正瓶颈不在GPU，而在内存，多数时间GPU都在“等待”。

IT之家 7 月 6 日消息，被誉为“HBM 之父”的韩国科学技术院（KAIST）电气系教授金正浩近日接受《东亚日报》采访时表示，AI 的核心竞争力正在从 GPU 转向内存。金正浩认为 AI 的本质是内存，GPU 在 AI 推理中的利用率远低于理论水平。AI 每次输出结果，都必须先从 HBM 读取…

之父金正浩的本质是内存真正工作的时间只有 hbm

3

⚡ 效率工具 VentureBeat 2026-06-19

New AI optimization framework beats Claude Code and Codex by 2.5x on the same compute budget

新AI优化框架Arbor在相同计算预算下比Claude Code和Codex性能提升2.5倍，为AI编码工具树立新标杆。

Imagine your engineering team just deployed an AI agent to search through internal company documents and answer employee questions. It works perfectly…

ai框架代码生成性能优化计算效率 arbor

4

📝 深度技术 arXiv 计算机视觉 2026-06-17

Do We Really Need Diffusion? A Fast U-Net for Paired Medical Image Translation

挑战扩散模型主流地位，快速U-Net实现配对医学图像翻译，兼顾速度与质量。

arXiv:2606.17675v1 Announce Type: new Abstract: Magnetic resonance imaging-signal fat fraction (MRI-SFF) quantifies tissue fat and serves as an establ…

扩散模型 u-net 医学图像翻译效率深度学习

5

📝 深度技术 arXiv 机器学习 2026-06-11

FOCUS: DLLMs Know How to Tame Their Compute Bound

DLLM解码计算并行化存在严重低效，只有少数token可解码，此文精准定位瓶颈并提出优化方向。

arXiv:2601.23278v2 Announce Type: replace Abstract: Diffusion Large Language Models (DLLMs) offer a compelling alternative to Auto-Regressive models, …

扩散大模型 dllm 计算效率解码优化并行计算

6

📝 深度技术 arXiv 机器学习 2026-06-11

A Riemannian Approach to Low-Rank Optimal Transport

将低秩最优传输问题转化为黎曼流形上的优化，显著提升计算效率与可扩展性，理论突破值得关注。

arXiv:2606.12120v1 Announce Type: new Abstract: Low-rank optimal transport (OT) mitigates the quadratic scaling of classical solvers, yet existing app…

低秩最优传输黎曼几何优化算法计算效率理论创新

7

📝 深度技术 arXiv AI 2026-06-10

Unifying Data, Memory, and Compute Efficiency in LLM training: A Survey

从数据、内存、计算三方面统一梳理LLM训练效率优化策略，系统总结前沿方法

arXiv:2606.10706v1 Announce Type: cross Abstract: Resource constraints increasingly determine what can be trained, fine-tuned, and deployed in large l…

llm 训练效率数据效率内存效率计算效率

8

📝 深度技术 arXiv AI 2026-06-02

Threshold-Based Exclusive Batching for LLM Inference

挑战LLM推理中的混合批处理惯例，全新阈值独占批处理策略或改写效率规则。

arXiv:2606.00516v1 Announce Type: new Abstract: Mixed batching (MB)--interleaving prefill and decode in a single batch--has become the standard schedu…

llm推理批处理优化混合批处理阈值策略计算效率

9

🤖 AI·大模型 arXiv 机器学习 2026-06-02

Video Reasoning without Training

无需昂贵训练与冗长思维链，探索视频推理的高效新路径。

arXiv:2510.17045v2 Announce Type: replace-cross Abstract: Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning…

视频推理大多模态模型无训练计算效率强化学习

10

🤖 AI·大模型 arXiv AI 2026-06-02

LookWise: Knowing When and Where to Look for Fine-Grained Visual Reasoning in Multimodal Large Language Models

无需训练的轻量级视觉推理方法LookWise，让多模态大模型更高效地“细看”图像细节

arXiv:2603.00171v3 Announce Type: replace-cross Abstract: Multimodal Large Language Models (MLLMs) are shifting towards "Thinking with Images" by acti…

多模态大模型视觉推理训练免费细粒度理解计算效率

11

🤖 AI·大模型 arXiv AI 2026-05-26

MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Any-Precision LLM

MoBiQuant通过混合位数量化实现token自适应任意精度，大幅降低大模型内存与计算开销，推理更高效。

arXiv:2602.20191v2 Announce Type: replace-cross Abstract: Dynamic runtime latency and memory constraints necessitate flexible large language model (LL…

大模型量化混合精度 token自适应 mobiquant 内存优化

12

📝 深度技术 arXiv AI 2026-05-26

ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference

轻量可插拔框架ChunkLLM，通过块选择与压缩突破Transformer自注意力二次复杂度瓶颈，显著加速大模型推理

arXiv:2510.02361v2 Announce Type: replace-cross Abstract: Transformer-based large models excel in natural language processing and computer vision, but…

llm推理加速块选择压缩轻量级框架 transforme

13

📝 深度技术 arXiv 机器学习 2026-05-20

Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings

用认知嵌入高效筛选评估子集，大幅降低大模型评测成本，保持预测准确性。

arXiv:2510.26384v2 Announce Type: replace-cross Abstract: The prohibitive cost of evaluating large language models (LLMs) on comprehensive benchmarks …

大模型评估子集选择计算效率认知嵌入 llm评测

14

📝 深度技术 arXiv AI 2026-05-20

PaAno: Patch-Based Representation Learning for Time-Series Anomaly Detection

提出PaAno方法，用补丁表示学习实现高效时间序列异常检测，兼顾性能与计算资源

arXiv:2602.01359v2 Announce Type: replace-cross Abstract: Although recent studies on time-series anomaly detection have increasingly adopted ever-larg…

时间序列异常检测补丁表示学习 paano 计算效率神经网络

15

📝 深度技术 arXiv AI 2026-05-19

Amortized Energy-Based Bayesian Inference

将摊销思想引入能量基贝叶斯推断，用传输方法一键解决非线性反问题，告别逐次MCMC的昂贵计算。

arXiv:2605.15407v1 Announce Type: cross Abstract: We consider amortized Bayesian inference for nonlinear inverse problems in settings where only sampl…

贝叶斯推断摊销推断非线性反问题传输方法计算效率

🐂 牛哥精选