1
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
无需任何配对数据,仅通过事件曲线匹配视频与音乐的时序变化,就能生成精准对齐的音乐。核心洞察:同步的是“何时变化”而非“什么变化”,巧妙解耦时间与语义控制。
arXiv:2603.11042v2 Announce Type: replace-cross Abstract: Generating music that temporally aligns with video events is challenging for existing text-t…