Design and Report Benchmarks for Knowledge Work
知识工作的设计与报告基准,为AI系统在真实办公场景中的表现提供量化评估新维度。
arXiv:2605.23262v1 Announce Type: new Abstract: The development of LLM agents has led to a growing body of work on knowledge-work AI, including coding…
知识工作的设计与报告基准,为AI系统在真实办公场景中的表现提供量化评估新维度。
arXiv:2605.23262v1 Announce Type: new Abstract: The development of LLM agents has led to a growing body of work on knowledge-work AI, including coding…
Steam手柄充电底座因金属物品接触存在短路起火风险,Valve官方警告需远离金属物体,用户亲身经历引发关注。
IT之家 5 月 23 日消息,科技媒体 Ars Technica 今天(5 月 23 日)发布博文, 报道称 Valve 新款 Steam Controller 磁性充电底座裸露金属触点,接触金属物品可能短路起火。 Reddit 用户 Toikka 发帖称,金属表带碰到充电底座后“滋滋作响,差点起…
2026中国AI应用全景图谱报告,9亿点击背后的产业真相:从聊天到做事的范式转变与商业化深水区洞察
有一个问题,值得在2026年认真问一次—— 你上一次用AI应用,是让它回答了一个问题,还是让它完成了一件事? 这两个动作之间,隔着一个时代。 2026年,AI应用的产品范式,正在从「聊天」走向「做事」。 这不是预言,是已经发生的现实。 从「回答」到「执行」,背后的数据是怎样的?推手是什么?有哪些代表…
IT之家 5 月 21 日消息, 美国顾客满意度指数(ACSI)基于 26963 份调查问卷 ,指出苹果客户满意度在 2026 年降至 80%,低于三星的 81%, 是自 iPhone 11(2019 年 9 月发布)时期后首次失去榜首位置。 ACSI 本周公布《 2026 年电信、手机与智能手表研…
通义千问发布DeepResearch技术报告,揭秘面向长周期深度搜索的端到端agentic大模型训练框架
arXiv:2510.24701v3 Announce Type: replace-cross Abstract: We present Tongyi DeepResearch, an agentic large language model, which is specifically desig…
EgoVis 2026 CASTLE挑战赛亚军方案的技术报告,详解多模态场景理解新方法MARS,视觉AI进阶必读
arXiv:2605.18176v1 Announce Type: new Abstract: This report presents MARS, short for Multimodal Agentic Reasoning with Source selection, our system fo…
Node.js 提高 HackerOne 报告门槛:新研究者须通过 Slack 联系安全团队,应对低质量报告激增。
提出非破坏性方法框架,在保留监管逻辑前提下为SAS遗留临床报告系统构建AI兼容层,突破药物信息学瓶颈。
arXiv:2605.13905v1 Announce Type: cross Abstract: Drug development and pharmacovigilance are frequently bottlenecked by legacy clinical reporting pipe…
WHO最新报告显示全球健康目标进展缓慢,2030年可持续发展目标恐难实现,值得关注全球健康趋势的读者细读。
Every year the World Health Organization publishes a global health statistics report. It features the numbers behind world health trends and, importan…
GPT-5.3系统卡正式发布,详解最新模型能力、安全评估与技术细节
OpenAI官方教程:数据科学团队用Codex自动化生成根因简报、KPI备忘录等,效率飙升。
See how data science teams can use Codex to build root-cause briefs, impact readouts, KPI memos, scoped analyses, and dashboard specs from real work i…
OpenAI最新报告:数据揭示企业从AI实验到实际生产力跃迁的关键路径
A data-driven look at enterprise AI adoption, showing how organizations move from experimentation to real productivity gains and new capabilities.
OpenAI最新报告揭秘恶意行为者如何利用AI模型与网站、社交平台结合,为检测和防御提供关键洞察。
Our latest threat report examines how malicious actors combine AI models with websites and social platforms—and what it means for detection and defens…
新算法DFT让LLM输出更贴合训练数据分布,显著提升写作质量,技术报告详实可试。
Standard LLM training is surprisingly bad at making the model outputs match the training data distribution, so the writing quality is bad. I made a ne…
新数据集与图增强框架,突破3D PET/CT影像的自动报告生成瓶颈。
arXiv:2604.18145v2 Announce Type: replace-cross Abstract: Automated medical report generation for 3D PET/CT imaging is fundamentally challenged by the…
Curl维护者亲述AI垃圾安全报告消失,项目重新开放后迎来更高质量的“混沌时期”。
Article URL: https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/ Comments URL: https://news.ycombinator.com/item?id=48164849 Points: 5 # Commen…
首个临床EEG到语言的基础模型,让长时程脑电图自动生成临床报告,告别繁琐人工总结。
arXiv:2601.22197v3 Announce Type: replace-cross Abstract: Generating clinical reports that summarize abnormal patterns, diagnostic findings, and clini…
OpenAI官方发布GPT-5.5系统卡,深度披露模型能力、安全评估与性能细节
AI生成的虚假漏洞报告泛滥,Bugcrowd三周内报告量暴增四倍,Curl被迫暂停赏金项目。
"Never-ending" AI slop strains corporate hacking reward schemes.