牛哥精选 · 所有

1

🤖 AI·大模型 arXiv 机器学习 2026-07-15

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

ICML 2026重磅论文：进化策略替代强化学习，开创大模型微调新范式。

arXiv:2509.24372v3 Announce Type: replace Abstract: Fine-tuning large language models (LLMs) for downstream tasks is an essential stage of modern AI d…

进化策略 llm微调强化学习 icml 2026 大规模模型

2

📝 深度技术 arXiv 机器学习 2026-07-14

FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale

通过合成指令数据扩展预训练规模，突破传统监督训练数据瓶颈的新方法

arXiv:2601.22146v2 Announce Type: replace-cross Abstract: Due to limited supervised training data, large language models (LLMs) are typically pre-trai…

合成数据指令微调预训练大语言模型自监督学习

3

🤖 AI·大模型 arXiv AI 2026-07-13

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs

提出GrAInS方法，利用梯度归因在推理时精准引导LLM/VLM行为，无需微调，更灵活高效。

arXiv:2507.18043v2 Announce Type: replace-cross Abstract: Inference-time steering methods offer a lightweight alternative to fine-tuning large languag…

梯度归因推理时引导 llm vlm 无需微调

4

📝 深度技术 Hacker News LLM 2026-07-11

The Silent Epidemic of LLM Technical Debt

用90%成本削减揭示LLM技术债：大模型虽好，但更小的微调模型才是长期最优解

Article URL: https://seldon-ai.com/blog/silent-epidemic-llm-tech-debt Comments URL: https://news.ycombinator.com/item?id=48872743 Points: 1 # Comments…

llm技术债务成本优化模型选型微调模型技术管理

5

📝 深度技术 arXiv 机器学习 2026-07-10

ReCoLoRA: Spectrum-Aware Recursive Consolidation for Continual LLM Fine-Tuning

突破LLM持续微调遗忘瓶颈，ReCoLoRA以频谱感知递归合并实现任务序列高效学习。

arXiv:2607.07719v1 Announce Type: new Abstract: Parameter-efficient fine-tuning adapts a large language model to one task cheaply, but across a task s…

llm 持续学习参数高效微调灾难性遗忘 lora

6

🤖 AI·大模型 arXiv 机器学习 2026-07-07

PLoRA: Efficient Concurrent LoRA Training for Large Language Models

提出PLoRA方法，实现大语言模型的高效并发LoRA训练，显著提升微调效率与资源利用率。

arXiv:2508.02932v2 Announce Type: replace Abstract: Low-Rank Adaptation (LoRA) has gained popularity as a fine-tuning approach for Large Language Mode…

lora 并发训练大语言模型效率优化模型微调

7

📝 深度技术 arXiv AI 2026-07-07

Trust-Region Noise Search for Black-Box Alignment of Diffusion and Flow Models

扩散与流模型的黑盒对齐新方法，信任区域噪声搜索带来高效微调

arXiv:2603.14504v2 Announce Type: replace-cross Abstract: Optimizing the noise samples of diffusion and flow models is an increasingly popular approac…

扩散模型流模型黑盒对齐信任区域噪声搜索

8

🤖 AI·大模型 Dev.to 2026-07-07

Master Local Fine-Tuning with "gemma-trainer"

手把手教你用 "gemma-trainer" 在本地微调 Gemma 4 E2B 模型，快速上手大模型定制！

Remember back in May when I introduced the gemma-skills repository? It's been rewarding to see how many of you have used my previous post to streamlin…

gemma 微调本地训练 ai工具模型定制

9

📝 深度技术 arXiv AI 2026-07-07

Parameter Efficient Multimodal Instruction Tuning for Romanian Vision Language Models

面向低资源语言罗马尼亚语的多模态指令微调，用参数高效方法实现视觉语言模型适配，填补非英语VLM研究空白。

arXiv:2512.14926v2 Announce Type: replace-cross Abstract: Focusing on low-resource languages is an essential step toward democratizing generative AI. …

视觉语言模型参数高效微调多模态指令微调低资源语言罗马尼亚语

10

🤖 AI·大模型 Hacker News LLM 2026-07-07

Jackrong LLM Fine-Tuning Guide

LLM微调实战指南，从入门到进阶的完整开源教程，适合AI开发者快速上手

Article URL: https://github.com/R6410418/Jackrong-llm-finetuning-guide Comments URL: https://news.ycombinator.com/item?id=48812171 Points: 2 # Comment…

llm 微调指南大模型训练开源教程 github项目

11

🤖 AI·大模型 Hacker News LLM 2026-07-02

LLM Fine-Tuning and Model Iteration Loop: Improve AI Apps in Production

详解LLM微调与迭代循环，提升生产环境AI应用性能的实战方法

Article URL: https://www.youtube.com/watch?v=Um7sjLEhaQM Comments URL: https://news.ycombinator.com/item?id=48760539 Points: 1 # Comments: 0

llm微调模型迭代 ai应用生产部署实战方法

12

📝 深度技术 arXiv AI 2026-07-01

ADAPT: Attention Dynamics Alignment with Preference Tuning for Faithful MLLMs

提出注意力动态对齐与偏好微调方法，从内部注意力演化破解多模态幻觉难题

arXiv:2606.31054v1 Announce Type: cross Abstract: Multimodal Large Language Models (MLLMs) are critically hampered by hallucination, generating conten…

多模态大语言模型幻觉抑制注意力对齐偏好微调跨模态注意力

13

📝 深度技术 arXiv NLP 2026-06-30

DNA Language Models: An Assessment of Pre-Training for Fine-Tuning Tasks

系统性评估DNA语言模型预训练对下游微调任务的影响，揭示不同预训练策略的效果差异。

arXiv:2606.30140v1 Announce Type: cross Abstract: Recent breakthroughs in foundation models and Large Language Models (LLMs) have introduced new oppor…

dna语言模型预训练评估微调任务生物信息学模型比较

14

📝 深度技术 arXiv 机器学习 2026-06-30

A Gravitational Interpretation of Fine-Tuning Reversion

重磅发现：无害数据微调竟能部分逆转模型训练行为，AI安全可能悄然瓦解——引力视角下的精细调谐逆转。

arXiv:2606.28525v1 Announce Type: new Abstract: Fine-tuning on harmless data can partially undo behaviors acquired earlier in training. Safety can ero…

ai安全微调逆转无害数据模型行为引力解释

15

📝 深度技术 arXiv 计算机视觉 2026-06-30

From Fog Chamber to Aircraft Window: Pixel-Registered Imaging and Synthetic Fine-Tuning Enable Cross-Domain Defogging

跨域去雾新方法：像素配准数据 + 合成微调，让实验室模型直接应用于飞机窗户等真实场景。

arXiv:2606.29093v1 Announce Type: new Abstract: A deep defogging pipeline pretrained on controlled laboratory fog and fine-tuned with domain-randomize…

去雾跨域像素配准合成微调计算机视觉

16

📝 深度技术 arXiv 机器学习 2026-06-30

When Does Online Imitation Learning Help in LLM Post-Training? The Role of (Non-)Realizability Beyond Horizon

一篇挑战LLM后训练中在线模仿学习优势的论文，深入剖析了非可实现性与时间跨度的关键作用

arXiv:2606.30445v1 Announce Type: new Abstract: Online imitation learning (IL), particularly on-policy distillation, has emerged as a strong LLM post-…

llm 在线模仿学习后训练监督微调可实现性

17

📝 深度技术 arXiv NLP 2026-06-29

Causal Connections: Leveraging Multilingual Fine-Tuning for Financial QA@FinCausal 2026

英语和西班牙语金融因果关系抽取任务，对比三种模型家族，多语言微调方法拔得头筹

arXiv:2606.27446v1 Announce Type: new Abstract: This paper describes team HSA_CORAL's submission to the FinCausal 2026 shared task on extracting cause…

因果抽取金融qa 多语言微调 bert 共享任务

18

🤖 AI·大模型 arXiv AI 2026-06-29

Low-Agreeableness Persona Conditioning for Safe LLM Fine-Tuning

提出用低宜人性人格条件化提升LLM微调安全性，平衡对齐与攻击鲁棒性。

arXiv:2606.27709v1 Announce Type: cross Abstract: Recent work has shown that fine-tuning large language models (LLMs) for social warmth degrades factu…

llm安全微调人格条件化大模型对齐宜人性

19

🤖 AI·大模型 Hacker News AI 2026-06-29

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M

基于Qwen 2.5架构，融合Claude Mythos微调的开源9B大模型现身HuggingFace。

Article URL: https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M Comments URL: https://news.ycombinator.com/item?id=48715349 Points: 1 # Co…

qwen 2.5 claude myt 9b参数微调开源模型

20

🔓 开源项目 Hacker News LLM 2026-06-28

Show HN: Apex-1-flash, 4B LLM finetuned on RTX 5070

在RTX 5070上微调4B参数模型，实现高效轻量推理，消费级硬件也能玩大模型。

The goal was to create a highly efficient, small-scale model that can perform reasoning tasks while remaining lightweight enough to run easily on cons…

rtx 5070 4b模型微调 unsloth 推理

🐂 牛哥精选