牛哥精选 · 三个月

🤖 AI·大模型量子位 2026-05-25

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

Claude Opus 4.7在106个真实办公任务中完全通过率仅3.8%，这场残酷评测撕碎了AI全自动办公的幻想。

UniPat AI 发布 SaaS-Bench 评测，Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%，AI 全自动办公远未落地。

通过率不到撕碎了全自动办公幻想 claude

2026-05-20 2026-05-19