牛哥精选 · 所有

📝 深度技术 arXiv AI 2026-05-19

DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks

无需知晓下游任务的具体数据，仅凭反馈即可动态优化训练数据混合——DUET算法将影响函数与贝叶斯优化结合，理论保证收敛到最优混合比例，为LLM数据选择开辟了全新范式。

arXiv:2502.00270v3 Announce Type: replace-cross Abstract: The performance of an LLM depends heavily on the relevance of its training data to the downs…

训练数据混合未见评估任务反馈优化 llm 影响函数

🐂 牛哥精选

DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks

📅 日期