牛哥精选 · 三个月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

🤖 AI·大模型 Hacker News AI 2026-07-07

Claude Sonnet 5: Anthropic's Most Agentic AI Model Arrives at a Reduced Price (2026)

Anthropic最新Claude Sonnet 5发布，更强Agent能力且价格下调，AI竞争再升级。

Article URL: https://lucasaguiar.xyz/en/posts/claude-sonnet-5-2026/ Comments URL: https://news.ycombinator.com/item?id=48812163 Points: 3 # Comments: …

claude son anthropic ai模型 agent能力降价

🤖 AI·大模型 arXiv AI 2026-07-03

PACE: A Proxy for Agentic Capability Evaluation

PACE框架以极低成本高效评估LLM Agent能力，对比SWE-Bench和GAIA，大幅节省时间与金钱。

arXiv:2607.02032v1 Announce Type: new Abstract: Evaluating LLM agents on benchmarks like SWE-Bench and GAIA can be expensive, time-consuming, and requ…

pace agent能力评估 llm agent 基准测试效率

🤖 AI·大模型 VentureBeat 2026-06-11

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

GPT-5.5逆袭Claude最新旗舰，在严苛Agent终考中以24%通过率胜出，模型竞争再掀波澜。

Researchers from the University of California, Berkeley's Center for Responsible, Decentralized Intelligence (RDI), alongside an advisory committ…

gpt-5.5 claude fab ale基准测试模型对比 ai竞赛

🚀 产品观察量子位 2026-06-03

头部厂商集体买单，全球AI原生达人营销头号平台正在诞生！

全球首个AI原生达人营销平台崛起，用Agent精准连接百万海外达人与企业。

平台入驻全球达人已超10万

头部厂商集体买单全球原生达人营销头号平台正在

📝 深度技术 arXiv 机器学习 2026-05-20

Search Self-play: Pushing the Frontier of Agent Capability without Supervision

无需人工标注，通过自主搜索对弈持续提升AI Agent能力极限，开辟无监督进化新方向

arXiv:2510.18821v3 Announce Type: replace Abstract: Reinforcement learning with verifiable rewards (RLVR) has become the mainstream technique for trai…

search sel agent能力无监督学习前沿论文自动化训练

📅 日期

2026-05-20 2026-05-19