牛哥精选 · 半年

1

📝 深度技术 arXiv AI 2026-07-14

A Multimodal Dataset for Large Language Model Applications in the Energy Domain

首个面向能源领域的大模型多模态数据集，助力LLM在电力、能源管理等场景的应用突破。

arXiv:2607.11459v1 Announce Type: cross Abstract: This paper presents the mAIEnergy dataset, an open-access, multimodal corpus developed to support La…

多模态数据集能源领域大语言模型数据资源论文推荐

2

📝 深度技术 arXiv AI 2026-07-14

A Large-Scale Dataset of MCP Implementations on GitHub

GitHub上MCP实现的大规模数据集公开，为软件仓库挖掘研究提供宝贵资源

arXiv:2607.10123v1 Announce Type: cross Abstract: The rapid emergence of the Model Context Protocol (MCP) has introduced a new standard for connecting…

mcp github 数据集软件仓库挖掘开源实现

3

🤖 AI·大模型 arXiv AI 2026-07-08

Faithful or Findable? Evaluating LLM-Generated Metadata for RDF Dataset Search

LLM生成元数据能否兼顾忠实与可发现？这篇论文深入评估了AI元数据在RDF数据集搜索中的表现，为语义网和信息检索领域带来新视角。

arXiv:2607.05970v1 Announce Type: cross Abstract: Dataset search depends heavily on metadata, making LLM-generated metadata a consequential form of sy…

llm rdf数据集元数据评估信息检索忠实性

4

📝 深度技术 arXiv AI 2026-07-08

Scientific Code Search at Scale: A Multi-Domain Dataset and Benchmark

全新多领域科学代码搜索数据集及基准发布，填补代码检索领域空白

arXiv:2607.05443v1 Announce Type: cross Abstract: Scientists increasingly rely on open-source tools to support their research workflows, yet discoveri…

科学代码搜索多领域数据集基准代码检索学术研究

5

📝 深度技术 Dev.to 2026-07-07

Your PII redactor probably leaks tool-call arguments

研究发现多数PII编辑工具在处理工具调用参数时存在泄露风险，利用458项多语言数据集验证了跨场景漏洞。

Most "redact PII before the LLM" tools scan the chat message text and stop there. That was fine when an LLM call was one string in, one string out. It…

pii 数据泄露工具调用隐私安全多模态

6

📊 数据集 IT 之家 2026-07-07

英伟达携手 Hugging Face 扩展机器人开发资源：连接 1600 万 AI 开发者

英伟达与Hugging Face联手，为1600万AI开发者送上机器人开发开源数据集与模型，加速物理AI落地。

IT之家 7 月 7 日消息，英伟达今天（7 月 7 日）发布博文，宣布携手 Hugging Face 平台，把 NVIDIA Isaac GR00T 1.7 和 NVIDIA Isaac Teleop 接入 LeRobot 开源机器人库，后续规划还将引入 NVIDIA Cosmos 3 模型。 …

英伟达携手扩展机器人开发资源连接开发者

7

📝 深度技术 arXiv 机器学习 2026-07-07

Lightweight ML-Based Automatic Sleep Staging Framework with Constrained CNN and Mamba for Small-Sample EEG Datasets

轻量级CNN+Mamba框架精准自动睡眠分期，专攻小样本EEG数据集，高效实用。

arXiv:2607.04934v1 Announce Type: new Abstract: Automatic sleep staging is a key technology for precise diagnosis and treatment of sleep disorders as …

轻量级模型自动睡眠分期 cnn mamba 小样本学习

8

🤖 AI·大模型 arXiv NLP 2026-07-03

LuxIT: A Luxembourgish Instruction Tuning Dataset from Monolingual Seed Data

卢森堡语大模型指令调优数据集LuxIT正式开源，独创单语种子数据高效构建方案，为低资源语言NLP突破奠定基础。

arXiv:2510.24434v3 Announce Type: replace Abstract: The effectiveness of instruction-tuned Large Language Models (LLMs) is often limited in low-resour…

luxit 卢森堡语指令调优低资源语言数据集

9

📝 深度技术 Dev.to 2026-07-02

Rethinking Enterprise AI: Why GraphRAG is the Missing Link

从文本搜索转向关系导航，GraphRAG让企业AI真正理解业务逻辑与因果关系。

Part 1: Social Listening I was reading a paper called "A Graph RAG Approach to Enhance Explainability in Dataset Discovery." It made something click. …

graphrag 企业ai 可解释性关系导航业务逻辑

10

📝 深度技术 arXiv 计算机视觉 2026-07-02

SpatialMosaic: A Multiview VLM Dataset for Partial Visibility

新数据集SpatialMosaic专攻部分可见场景，补全多视图VLM空间推理短板。

arXiv:2512.23365v4 Announce Type: replace Abstract: Recent progress in Multimodal Large Language Models (MLLMs) has enabled 3D scene understanding and…

spatialmos 多视图数据集视觉语言模型部分可见性空间推理

11

🤖 AI·大模型 arXiv 机器学习 2026-07-02

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning

VisReason数据集带来视觉推理新突破，大规模多步骤链式思维数据推动多模态AI发展。

arXiv:2511.17731v2 Announce Type: replace-cross Abstract: Chain-of-Thought (CoT) prompting has proven remarkably effective for eliciting complex reaso…

visreason 视觉链式推理大规模数据集多步骤推理视觉推理

12

📄 文档手册 36氪 2026-07-02

济南大数据集团在山东成立人工智能公司，注册资本8000万

济南大数据集团斥资8000万成立人工智能公司，地方国资加速布局AI赛道。

36氪获悉，天眼查App显示，近日，山东开创未来人工智能有限公司成立，法定代表人为夏广越，注册资本8000万人民币，经营范围包括人工智能基础资源与技术平台、大数据服务、信息系统集成服务、智能控制系统集成等，由济南大数据集团有限公司、迈富时企业管理（上海）有限公司、上海乘风引擎智能技术有限公司共同持股…

济南大数据集团在山东成立人工智能公司注册资本济南大数据集团

13

📝 深度技术 arXiv AI 2026-07-01

Dataset Construction for Training LLM to Learn Analog Circuit Knowledge

让大模型学会模拟电路知识，从教科书分解细粒度节点构建高质量训练集。

arXiv:2508.10409v3 Announce Type: replace-cross Abstract: This paper constructs a textual dataset for training large language models (LLMs) to learn a…

llm 模拟电路数据集构建教科书分解细粒度学习节点

14

📝 深度技术 arXiv AI 2026-07-01

AI-Generated PowerShell Malware: An Experimental Framework and Dataset

首次公开AI自主生成PowerShell恶意代码的框架与数据集，揭示LLM在攻防场景的新威胁。

arXiv:2606.30819v1 Announce Type: cross Abstract: Generative AI has emerged as a significant cybersecurity threat, with several recent attack campaign…

ai生成恶意软件 powershell 实验框架数据集 ai安全

15

📄 文档手册 36氪 2026-06-26

布局下一代人机交互与具身数据入口，「念象科技」完成近千万元天使轮融资｜36氪首发

Meta验证Scaling Law打开神经腕带产业化窗口，念象科技获近千万元天使融资专注非侵入式交互。

文｜胡香赟编辑｜海若镜 36氪获悉，专注非侵入式神经接口技术研发与产业化的「念象科技」已完成近千万元天使轮融资。本轮融资由永珺星芒领投，浦东创投、一村资本跟投，募集资金主要用于产品研发、团队扩建、本土sEMG数据集建设。念象科技成立于2025年底，首款产品Omniband是一款腕戴式表面肌电（s…

布局下一代人机交互与具身数据入口念象科技完成近千万元

16

🤖 AI·大模型 arXiv NLP 2026-06-24

SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

专为LLM时代打造的科学论文层次摘要基准，含大规模数据集与细粒度评估方案

arXiv:2603.16131v2 Announce Type: replace Abstract: The explosive growth of AI research has created unprecedented information overload, increasing the…

科学摘要层次化摘要基准数据集大语言模型 llm评估

17

📝 深度技术 arXiv 机器学习 2026-06-24

PROTECT-90: A Fault Dataset for Power System Protection

电力系统保护首个标准化故障数据集PROTECT-90，覆盖90种故障类型，为智能电网研究提供可靠基准与验证资源。

arXiv:2606.24298v1 Announce Type: cross Abstract: The increasing interest in data-driven methods for power system protection is accompanied by a lack …

电力系统故障数据集保护算法 protect-90 ieee pes

18

📝 深度技术 arXiv 计算机视觉 2026-06-23

HRDexDB: A Paired Human-Robot Dataset for Cross-Embodiment Dexterous Grasping

人类与机器人双手配对数据集，为跨形态灵巧抓取学习提供对齐基准。

arXiv:2604.14944v2 Announce Type: replace-cross Abstract: We present HRDexDB, a paired cross-embodiment dexterous grasping dataset of high-fidelity de…

hrdexdb 灵巧抓取跨形态机器人数据集深度学习

19

📝 深度技术 arXiv AI 2026-06-23

Counsel: A Meta-Evaluation Dataset for Agentic Tasks

针对智能体多步任务评估耗时瓶颈，提出元评估数据集Counsel，大幅降低人工标注成本。

arXiv:2606.21627v1 Announce Type: new Abstract: As agentic systems tackle increasingly complex multi-step tasks, evaluating their trajectories present…

智能体评估数据集元评估多步任务

20

📝 深度技术 IT 之家 2026-06-19

全球首次：我国科学家实现单神经元三模态完整解析

全球首次实现同一神经元功能、结构与基因的同步解析，打破数据孤岛，为神经科学和AI交叉研究开辟新路径。

IT之家 6 月 19 日消息，据央视报道，中国科学院脑科学与智能技术卓越创新中心王凯研究团队与徐圣进研究团队联合在国际顶级学术期刊《细胞》上发表了一项重磅研究成果。研究团队自主研发出基于成像的多模态解析平台“IMC”（Imaging-based Multimodal Characterizati…

全球首次我国科学家实现单神经元三模态完整解析单神经元

🐂 牛哥精选