牛哥精选 · 本周

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

🤖 AI·大模型 Dev.to 2026-05-23

Wake-Up Call: Why AI Safety Guardrails Break Under Pressure

六大模型压力测试揭示AI安全护栏在持续追问下会失效，值得关注

This is a submission for the Google I/O Writing Challenge This is a submission for the Google I/O Writing Challenge We treat AI safety as a static sta…

ai安全压力测试语言模型护栏失效安全评估

🤖 AI·大模型 arXiv AI 2026-05-23

Autonomous LLM Agents & CTFs: A Second Look

再看自主LLM智能体在CTF挑战中的表现，更新发现与能力边界。

arXiv:2605.21497v1 Announce Type: cross Abstract: Large Language Model (LLM) agents are increasingly proposed to automate offensive security tasks, wi…

自主llm代理 ctf挑战安全评估智能体能力学术论文

📝 深度技术 OpenAI 官方博客 2026-05-19

GPT-4V(ision) system card

OpenAI官方发布GPT-4V系统卡，详解多模态模型能力、安全评估与局限性。

gpt-4v 系统卡多模态安全评估

📝 深度技术 OpenAI 官方博客 2026-05-19

GPT-5.4 Thinking System Card

GPT-5.4 系统卡全面披露模型能力、限制与安全评估细节，深度解析下一代大模型技术。

gpt-5.4 系统卡 openai 安全评估大模型

🤖 AI·大模型 OpenAI 官方博客 2026-05-19

GPT-5.3 Instant System Card

GPT-5.3系统卡正式发布，详解最新模型能力、安全评估与技术细节

gpt-5.3 系统卡 openai 大模型安全评估

🤖 AI·大模型 OpenAI 官方博客 2026-05-19

GPT-5.5 Instant System Card

OpenAI官方发布GPT-5.5 Instant系统卡，详解安全评估、能力边界与性能提升，值得关注。

gpt-5.5 系统卡 openai 安全评估大模型

📝 深度技术 arXiv 机器学习 2026-05-19

Training ML Models with Predictable Failures

提出有限k分解方法，预测机器学习模型部署时的失败率，提升安全评估可行性。

arXiv:2605.15134v2 Announce Type: replace Abstract: Estimating how often an ML model will fail at deployment scale is central to pre-deployment safety…

机器学习模型失败预测安全评估故障率分数分解

📝 深度技术 OpenAI 官方博客 2026-05-19

GPT-5.5 System Card

OpenAI官方发布GPT-5.5系统卡，深度披露模型能力、安全评估与性能细节

gpt-5.5 openai 系统卡大模型安全评估

📝 深度技术 arXiv AI 2026-05-19

AgenticEval: Toward Agentic and Self-Evolving Safety Evaluation of Large Language Models

提出动态自进化安全评估框架，解决大模型静态基准无法应对AI风险演变的问题。

arXiv:2509.26100v2 Announce Type: replace Abstract: The rapid integration of Large Language Models (LLMs) into high-stakes domains necessitates reliab…

agenticeva 大语言模型安全评估自进化动态基准

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

📅 日期