过河拆桥?扎克伯格一边计划裁员,一边称“让 Meta 员工参与训练 AI 效果更好”
IT之家 5 月 25 日消息,Meta 今年 4 月宣布,将裁减约 10% 的员工,约 7800 人受波及。与多数企业迅速执行裁员不同,Meta 提前接近一个月通知员工,但始终没有明确究竟谁会被裁掉。 这轮裁员已经正式生效,而情况也正如外界此前预料般残酷。但更具争议的,是近日曝光的一段 Meta …
IT之家 5 月 25 日消息,Meta 今年 4 月宣布,将裁减约 10% 的员工,约 7800 人受波及。与多数企业迅速执行裁员不同,Meta 提前接近一个月通知员工,但始终没有明确究竟谁会被裁掉。 这轮裁员已经正式生效,而情况也正如外界此前预料般残酷。但更具争议的,是近日曝光的一段 Meta …
单GPU实现凸优化方法,高效解决LLM偏好对齐难题,降低RLHF计算成本。
arXiv:2605.23244v1 Announce Type: new Abstract: Fine-tuning large language models (LLMs) to align with human preferences has driven the success of sys…
跨语言验证发现大脑语言网络与LLM的对齐主要受训练数据驱动,而非语言类型学差异。
arXiv:2605.23032v1 Announce Type: cross Abstract: Brain-LLM alignment is well established in English, yet the brain's language network is neuroanatomi…
马斯克的AI助手Grok,基于1.5万亿参数模型,对话风格幽默,支持实时信息获取,即将迎来重大版本升级。
IT之家 5 月 25 日消息,马斯克今日宣布,Grok 基础模型 V9-Medium(1.5T、1.5 万亿参数量)已完成训练。 马斯克透露,该模型的评估结果相当不错。在补充训练中, 加入了大量 Cursor 数据 ,未来还会继续添加更多数据。 马斯克表示,微调工作正在进行中,强化学习将于几天后开…
首个欧洲多中心乳腺癌MRI数据集发布,为医学影像AI提供高质量训练与评估基准
arXiv:2506.00474v3 Announce Type: replace-cross Abstract: Early detection of breast cancer is critical for improving patient outcomes. While mammograp…
最新研究系统评估了大模型后训练中的“灾难性遗忘”,为提升模型持续学习能力提供关键方法论。
arXiv:2603.06610v2 Announce Type: replace Abstract: Large language model (LLM) post-training enhances latent skills, unlocks value alignment, improves…
颠覆认知?弱教师模型也能有效蒸馏LLM,预训练阶段教师强度并非关键。
arXiv:2605.23857v1 Announce Type: new Abstract: Knowledge distillation generally assumes a strong-to-weak relationship where stronger teachers yield b…
Muon优化器新突破,基于重尾谱校正解决噪声方向过量问题,助力大模型高效训练
arXiv:2603.10067v2 Announce Type: replace-cross Abstract: Muon has recently shown promising results in LLM training. In this work, we study how to fur…
研究发现大模型地缘政治偏见来自后训练而非数据,提示语言会放大偏见,颠覆传统认知。
arXiv:2605.23825v1 Announce Type: cross Abstract: It has generally been assumed that geopolitical bias in language models originates from the training…
无需训练即可编排多模态大模型,实现零样本协调多种能力,降低落地门槛
arXiv:2508.10016v4 Announce Type: replace Abstract: Building interactive omni-modal assistants often relies on end-to-end multimodal alignment to fuse…
IT之家 5 月 25 日消息,面壁智能联合清华大学、OpenBMB 开源社区,今天正式发布并开源其在低比特大模型训练方向的最新成果 ——BitCPM-CANN。 官方表示,这是中国首个完全基于国产算力平台(华为昇腾)实现端到端训练并开源的三值(1.58-bit)大模型。从量化算子、训练算法到全链路…
AI算力格局将逆转:推理需求将占70%,智能体交互驱动下,产业整合速度成关键竞争力。
技术创新只是起点,产业整合速度才是AI落地的真正竞争力
提出极简优化器设计,大幅降低大模型预训练内存占用,已被ICML 2026接收。
arXiv:2506.16659v3 Announce Type: replace-cross Abstract: Training large language models (LLMs) relies on adaptive optimizers such as Adam, which intr…
突破传统统一学习率,重尾分布指导LLM逐层自适应学习,大幅提升训练效率与模型性能。
arXiv:2605.22297v1 Announce Type: cross Abstract: Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice…
GRPO新变体F-TIS:通过多模型协作提升LLM后训练奖励信号多样性,突破单一策略局限。
arXiv:2605.22537v1 Announce Type: new Abstract: Reinforcement learning methods such as GRPO have seen great popularity in LLM post-training. In GRPO, …
新研究用可证明方式保护微调大模型免遭训练数据窃取,同时维持模型效能,隐私与实用兼得。
arXiv:2602.00688v2 Announce Type: replace Abstract: Fine-tuning large language models (LLMs) on sensitive datasets raises privacy concerns, as trainin…
破解多会话强化学习中记忆增强LLM智能体的公平信用分配难题,来自最新学术论文
arXiv:2605.21768v1 Announce Type: new Abstract: Memory-augmented LLM agents enable interactions that extend beyond finite context windows by storing, …
通过视觉推理提升过程奖励建模精度,为复杂任务训练提供新思路。
arXiv:2508.03556v3 Announce Type: replace Abstract: Process Reward Model (PRM) is widely used in the post-training of Large Language Model (LLM) becau…
让保守的LLM在任务对话中主动出击,论文用奖励塑造RL解锁销售场景的前瞻策略。
arXiv:2605.22240v1 Announce Type: new Abstract: Proactive task-oriented dialogue (TOD), such as outbound sales, demands a persuasive agent that active…