1
美团 LongCat 开源 General 365:树立推理评测新标尺
美团推出通用推理评测基准General 365,直击大模型“死记硬背”痛点,多数模型刚及格甚至不及格。
美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。
美团推出通用推理评测基准General 365,直击大模型“死记硬背”痛点,多数模型刚及格甚至不及格。
美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。