牛哥精选 · 所有

🔓 开源项目美团技术团队 2026-06-04

美团 LongCat 开源 General 365：树立推理评测新标尺

美团 LongCat 团队正式发布 General 365。我们发现，在对 26 款主流模型的实测中，目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%，而绝大多数模型甚至没能摸到 60 分的及格线。

美团开源树立推理评测新标尺

🤖 AI·大模型美团技术团队 2026-05-19

美团推出通用推理评测基准General 365，直击大模型“死记硬背”痛点，多数模型刚及格甚至不及格。

大模型推理评测通用推理美团longcat general365

2026-05-20 2026-05-19