Figure 03 人形机器人完成 200 小时全自动作业直播,分拣近 25 万包裹零故障
IT之家 5 月 25 日消息,美国机器人企业 Figure AI 旗下的 Figure 03 人形机器人,已完成长达 200 小时的全自动作业直播。 IT之家注意到,在此次作业期间,这些机器人累计分拣近 25 万个包裹,全程未出现任何硬件故障。 公司首席执行官布雷特 · 阿德科克表示,这次里程碑式…
IT之家 5 月 25 日消息,美国机器人企业 Figure AI 旗下的 Figure 03 人形机器人,已完成长达 200 小时的全自动作业直播。 IT之家注意到,在此次作业期间,这些机器人累计分拣近 25 万个包裹,全程未出现任何硬件故障。 公司首席执行官布雷特 · 阿德科克表示,这次里程碑式…
IT之家 5 月 22 日消息,腾讯魔方工作室《洛克王国:世界》游戏官方今日凌晨发布关于近期问题的说明。 官方表示,围绕 游戏内部分动作表现修改、社区讨论环境问题 ,收到了大量反馈、批评与建议。在认真阅读了大家的讨论后也深刻认识到,部分问题已不仅是单纯的版本内容争议,更影响了大家对游戏氛围、社区环境…
顶级会议ICML 2026收录,揭秘构建强视觉-语言-动作(VLA)模型的实用配方与技巧。
arXiv:2602.18532v2 Announce Type: replace Abstract: Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, lever…
首次定义具身动作表征的ImageNet基准,揭示人类视频数据可驱动机器人泛化学习。
LARYBench (Latent Action Representation Yielding Benchmark),一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征…
机器人基础模型新突破:通用姿态预训练让视觉-语言-动作策略泛化能力飙升,已被RSS 2026接收。
arXiv:2602.19710v2 Announce Type: replace-cross Abstract: Existing Vision-Language-Action (VLA) models often suffer from feature collapse and low trai…
新动作出现时,离线上下文bandit如何优化?这篇论文提出解决方案,提升推荐系统等场景的决策效果。
arXiv:2605.18509v1 Announce Type: new Abstract: Automated decision-making algorithms drive applications such as recommendation systems and search engi…
提出将参数化动作分布视为动作的新型强化学习框架,统一离散、连续与混合动作空间,简化智能体设计。
arXiv:2506.16608v3 Announce Type: replace-cross Abstract: We introduce a novel reinforcement learning (RL) framework that treats parameterized action …
揭示VLA训练中VLM多模态能力系统退化的“具身税”现象,提出双流新视角UAM
arXiv:2605.15735v1 Announce Type: cross Abstract: Vision--language--action (VLA) models are typically built by fine-tuning a pretrained vision--langua…
DiLA将潜在动作解耦为几何与纹理流,实现高保真视频预测,突破LAMs的抽象-保真权衡。
arXiv:2605.15725v1 Announce Type: cross Abstract: Latent Action Models (LAMs) enable the learning of world models from unlabeled video by inferring ab…
提出概率块掩码机制,直击VLA强化学习后训练计算瓶颈,显著提升效率。
arXiv:2605.16154v1 Announce Type: new Abstract: Reinforcement learning (RL) allows vision-language-action (VLA) policies to generalize beyond their tr…
用海量第三人称视频破解第一人称世界模型训练难题,新方法EgoExo-WM来了。
arXiv:2605.15477v1 Announce Type: new Abstract: Egocentric world models present a promising direction for enabling agents to predict and plan, but the…
从人类自我中心视频提取物理常识监督,助力机器人学习更广物理理解的新方法
arXiv:2605.15298v1 Announce Type: cross Abstract: Vision-language-action models have advanced rapidly, but robot trajectories alone provide limited co…
300行代码拆解AI Agent核心,ReAct循环的原理、本地模型限制与动作风险,拨开炒作看清本质。
Article URL: https://quantumentangled.dev/viewpost/11/whats-actually-inside-an-ai-agent-a-300-loc-react-loop Comments URL: https://news.ycombinator.co…
首次实现统一原则训练的具身基础模型,将理解、推理、想象、动作联合优化于单一VLM中,打破独立专家系统架构,性能超越同等规模模型。具身智能迈入真正统一范式。
arXiv:2605.15153v1 Announce Type: cross Abstract: We present Pelican-Unified 1.0, the first embodied foundation model trained according to the princip…