牛哥精选 · 本月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv NLP 2026-06-12

From Benchmarks to Skills: Low-Rank Factors for LLM Evaluation

提出基于低秩因子的LLM评估新范式，突破传统基准分数局限，揭示模型真实能力。

arXiv:2507.20208v2 Announce Type: replace Abstract: Current evaluations of large language models (LLMs) rely heavily on a growing collection of benchm…

大语言模型评估低秩因子基准测试模型能力新范式

🤖 AI·大模型 arXiv NLP 2026-06-05

Pitfalls of Evaluating Language Models with Open Benchmarks

这篇论文揭示了用开放基准评估大语言模型时容易踩的坑，值得AI研究者和从业者警惕。

arXiv:2507.00460v3 Announce Type: replace Abstract: Open Large Language Model (LLM) benchmarks, such as HELM and BIG-Bench, provide standardized and t…

语言模型评估基准测试评估陷阱学术论文大模型

🤖 AI·大模型 arXiv NLP 2026-05-21

EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models

透明思维链框架 EvalMORAAL，通过双评分法和模型裁判评审评估20个LLM在55国价值观数据上的道德对齐

arXiv:2510.05942v3 Announce Type: replace Abstract: We present EvalMORAAL, a transparent chain-of-thought (CoT) framework that uses two scoring method…

道德对齐思维链大语言模型评估世界价值观调查模型裁判

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

From Benchmarks to Skills: Low-Rank Factors for LLM Evaluation

Pitfalls of Evaluating Language Models with Open Benchmarks

EvalMORAAL: Interpretable Chain-of-Thought and LLM-as-Judge Evaluation for Moral Alignment in Large Language Models

📅 日期