牛哥精选 · 本周

📋 全部 🤖 AI·大模型 ⚡ 效率工具 📝 深度技术 🚀 产品观察 💰 商业科技 🔓 开源项目 🎨 设计创意 📖 阅读推荐 🏷 资源合集 🌱 成长效率

🤖 AI·大模型 arXiv NLP 2026-05-22

AMEL: Accumulated Message Effects on LLM Judgments

大语言模型作为自动评估者，会被对话历史中的观点极性所影响，一项覆盖7.5万样本的研究揭示了这种“累积消息效应”

arXiv:2605.22714v1 Announce Type: cross Abstract: Large language models are routinely used as automated evaluators: to review code, moderate content, …

大语言模型自动评估对话偏见累积消息效应实证研究

🤖 AI·大模型 IT 之家 2026-05-22

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人，聊天 15 分钟难辨人机

图灵测试76年来首现AI实证：GPT-4.5以73%判定率被误认为人类，15分钟对话难辨人机，重新定义AI认知边界。

IT之家 5 月 22 日消息，加州大学圣地亚哥分校的最新研究首次提供了实证数据，可证明现代 AI 系统能够通过经典的图灵测试。在该测试中，机器需要学习人类并模仿人类对话，使人们无法稳定分辨人类与先进大语言模型之间的差异。这项发表在《美国国家科学院院刊》上的研究，首次采用英国数学家、“计算机科学…

图灵测试年后首现通过实证判定率超越真聊天

🤖 AI·大模型 arXiv NLP 2026-05-20

What Are LLMs Doing to Scientific Communication? Measuring Changes in Writing Practices and Reading Experience

量化分析LLM如何改变科学论文写作与阅读，数据揭示学术交流新趋势

arXiv:2605.19936v1 Announce Type: new Abstract: Has the style of scientific communication changed due to the growing use of large language models in t…

llm 科学交流写作实践阅读体验实证研究

🤖 AI·大模型 arXiv AI 2026-05-19

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

大模型“读心术”提升是否真能改善人机交互？来自互动评估的实证发现，挑战常规认知。

arXiv:2605.15205v1 Announce Type: new Abstract: Improving the Theory of Mind (ToM) capability of Large Language Models (LLMs) is crucial for effective…

theory of 大语言模型人机交互实证研究 arxiv论文

📅 日期

2026-05-20 2026-05-19

🐂 牛哥精选

AMEL: Accumulated Message Effects on LLM Judgments

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人，聊天 15 分钟难辨人机

What Are LLMs Doing to Scientific Communication? Measuring Changes in Writing Practices and Reading Experience

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

📅 日期