网易有道“子曰 4”多模态模型、语音合成模型全量开源
网易有道重磅开源“子曰4”多模态模型与TTS模型,教育场景数理能力达行业顶尖,支持14种语言,单卡即可运行。
IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成(TTS)模型”, 正式面向全球全量开源 。开发者可以免费下载、部署,并基于此进行二次开发。 此次开源的“子曰 4”多模态模型(27B 参数规模)面向教育场景,支持视觉输入的数…
网易有道重磅开源“子曰4”多模态模型与TTS模型,教育场景数理能力达行业顶尖,支持14种语言,单卡即可运行。
IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成(TTS)模型”, 正式面向全球全量开源 。开发者可以免费下载、部署,并基于此进行二次开发。 此次开源的“子曰 4”多模态模型(27B 参数规模)面向教育场景,支持视觉输入的数…
腾讯会议AI同传上线,能模仿你的音色且时延低于3秒,让每个人独立收听自己的语言,发言翻译几乎同步。
IT之家 5 月 21 日消息,腾讯会议今日宣布「AI 同传」正式上线,可模仿用户音色、时延低于 3 秒,发言和翻译几乎同步。 据介绍,该功能不用插件、不用外接设备,会议里的每一位参会者, 都能独立开启属于自己的「AI 同传」 ,你听你想听的语言,他听他想听的语言,每个人的发言都被清晰对应、精准传递…
颠覆传统认知:语音克隆本质是风格迁移,斯坦福团队用新视角重新定义技术边界。
arXiv:2605.16578v1 Announce Type: cross Abstract: Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular…
联合人脸运动与语音生成,Flow Matching实现音视频同步合成,突破传统分离建模局限。
arXiv:2506.23552v2 Announce Type: replace Abstract: The intrinsic link between facial motion and speech is often overlooked in generative modeling, wh…