牛哥精选 · 本月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

🤖 AI·大模型 arXiv AI 2026-05-28

Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study

多语言LLM评判可靠性实证研究：探索如何确保AI裁判在不同语言下的公正与准确

arXiv:2605.28710v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly used for the automatic evaluation of generated text, y…

llm评估多语言实证研究可靠性 ai裁判

🤖 AI·大模型 arXiv NLP 2026-05-26

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

因果框架揭穿LLM法官的"伪推理"，让你看清AI评测中的隐藏偏见

arXiv:2605.23970v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly used as automatic judges for summarization and dialogue …

llm评估因果框架合理化偏见 ai评测大模型可信度

🤖 AI·大模型量子位 2026-05-25

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

Claude Opus 4.7在106个真实办公任务中完全通过率仅3.8%，这场残酷评测撕碎了AI全自动办公的幻想。

UniPat AI 发布 SaaS-Bench 评测，Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%，AI 全自动办公远未落地。

通过率不到撕碎了全自动办公幻想 claude

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

📅 日期