1
Claude 通过率不到4%,SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想
Claude Opus 4.7在106个真实办公任务中完全通过率仅3.8%,这场残酷评测撕碎了AI全自动办公的幻想。
UniPat AI 发布 SaaS-Bench 评测,Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%,AI 全自动办公远未落地。
Claude Opus 4.7在106个真实办公任务中完全通过率仅3.8%,这场残酷评测撕碎了AI全自动办公的幻想。
UniPat AI 发布 SaaS-Bench 评测,Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%,AI 全自动办公远未落地。
轻量级大模型在法律AI中展现潜力,这篇论文系统探索了小于2B参数模型在法院观点生成任务上的表现。
arXiv:2605.16770v1 Announce Type: new Abstract: Criminal Court View Generation (CVG) is a critical task in Legal Artificial Intelligence (Legal AI), i…