1
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征
首次定义具身动作表征的ImageNet基准,揭示人类视频数据可驱动机器人泛化学习。
LARYBench (Latent Action Representation Yielding Benchmark),一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征…