牛哥精选 · 本月

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

📝 深度技术 arXiv 机器学习 2026-06-11

When is Your LLM Steerable?

激活引导何时生效？一篇论文揭示LLM行为控制的边界与条件，帮你省去盲目网格搜索的功夫。

arXiv:2606.11599v1 Announce Type: cross Abstract: Activation steering offers a lightweight approach to control language models' behavior at inference …

llm 激活引导模型控制推理控制行为调控

🤖 AI·大模型 IT 之家 2026-06-05

Anthropic 称最新 AI 模型已显现可能脱离人类控制迹象，呼吁全球暂缓先进 AI 研发

Anthropic最新报告揭示AI模型出现脱离人类控制苗头，呼吁全球暂停前沿开发以防范风险。

IT之家 6 月 5 日消息，据《华尔街日报》报道，美国人工智能公司 Anthropic 昨日发布报告，称最新 AI 模型已开始显现脱离人类控制迹象，全球各大企业应考虑放缓乃至暂停开发先进 AI 系统。该公司表示，全球各大公司放缓前沿 AI 开发“很可能是好事”，但如果只有一家公司停下来的话，…

称最新模型已显现可能脱离人类控制迹象呼吁全球暂缓

🤖 AI·大模型 arXiv NLP 2026-06-04

Fast & Faithful Function Vectors

新方法实现又快又忠实的函数向量，提升大模型行为控制的可信度与效率

arXiv:2606.05079v1 Announce Type: new Abstract: Function vectors (FVs) are task representations elicited during in-context learning that can be used t…

function v 大模型可解释性模型控制忠实性效率

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

When is Your LLM Steerable?

Anthropic 称最新 AI 模型已显现可能脱离人类控制迹象，呼吁全球暂缓先进 AI 研发

Fast & Faithful Function Vectors

📅 日期