牛哥精选 · 三个月

1

🤖 AI·大模型 arXiv NLP 2026-07-10

When Synthetic Speech Is All You Have: Better Call GRPO

合成语音训练资源稀缺？本文提出GRPO方法，突破仅用合成语音的局限，为语音AI带来新思路

arXiv:2607.08409v1 Announce Type: new Abstract: LLM-based ASR adapted to regulated domains such as banking is bottlenecked by privacy: real speech is …

合成语音 grpo 语音合成大模型 slt 2026

2

📝 深度技术 arXiv AI 2026-06-25

Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

这项研究通过数据扩展与定向合成，攻克了日语语音生成中汉字多音词的难题。

arXiv:2606.25369v1 Announce Type: cross Abstract: While large language model (LLM)-based text-to-speech (TTS) systems have achieved high-quality speec…

日语语音合成汉字多音词数据扩展数据合成 llm-tts

3

🤖 AI·大模型量子位 2026-06-16

网易有道首席科学家段亦涛：让AI技术扎根业务场景

网易有道"子曰"教育大模型4.0高考数学145分，跨语种无口音语音克隆，全模态融合落地业务场景。

转载来源：网易有道本文为量子位获授权转载，观点仅为原作者所有。

网易有道首席科学家段亦涛技术扎根业务场景网易有道

4

🤖 AI·大模型 arXiv AI 2026-06-10

Self-EmoQ: Plutchik-Guided Value-based Planning to Drive Streaming Emotional TTS

基于Plutchik情感模型的价值规划方法，实现高表现力流式情感语音合成，被ACL 2026录用。

arXiv:2606.09837v1 Announce Type: cross Abstract: Emotional interaction is increasingly crucial for conversational AI, yet current systems lack a self…

情感语音合成 plutchik模型价值规划流式tts acl 2026

5

📝 深度技术 arXiv AI 2026-06-09

End-to-End Training for Discrete Token LLM based TTS System

提出端到端训练方法，将离散token LLM与TTS系统结合，提升语音合成效果。

arXiv:2606.09234v1 Announce Type: cross Abstract: Recent state-of-the-art (SOTA) text-to-speech (TTS) systems typically adopt a cascaded pipeline cons…

tts 离散token llm 端到端训练语音合成

6

🔓 开源项目 Hacker News AI 2026-06-05

New SoTA open source TTS model from Boson AI

开源新SOTA语音合成模型，4B参数，Boson AI发布Higgs Audio v3-TTS，音质飞跃。

Article URL: https://huggingface.co/bosonai/higgs-audio-v3-tts-4b Comments URL: https://news.ycombinator.com/item?id=48409001 Points: 3 # Comments: 0

boson ai tts 开源模型语音合成 higgs audi

7

🤖 AI·大模型 Product Hunt 2026-06-04

Microsoft MAI-Voice-2

微软推出支持15种语言的带情绪表达语音克隆TTS新工具

Expressive TTS with voice cloning in 15 languages Discussion | Link

微软语音克隆 tts 多语言支持表达性语音合成

8

📝 深度技术 arXiv NLP 2026-06-02

Sparse Autoencoders for Interpretable Emotion Control in Text-to-Speech

用稀疏自编码器实现语音情感的可解释控制，兼顾合成质量与情感表达能力。

arXiv:2606.01479v1 Announce Type: new Abstract: Integrating large language models (LLMs) into text-to-speech (TTS) systems has improved speech express…

稀疏自编码器语音合成情感控制可解释性 icml 2026

9

🤖 AI 工具 Hacker News Ask 2026-06-02

Ask HN: What's KugelAudio's (YC P26) Moat?

多语言语音合成工具，支持极低39ms延迟，在多语种TTS领域表现突出，适合需要高质量语音生成的场景。

I originally started lurking around on HN to better understand how startups work. I just saw the KugelAudio (YC P26) launch announcement and I truly d…

tts 语音合成低延迟多语言支持 ai语音

10

🤖 AI 工具 arXiv AI 2026-06-01

Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS

访问Chatterbox-Flash论文，了解优先校准块扩散在零样本流式TTS中的前沿应用

arXiv:2605.30748v1 Announce Type: cross Abstract: We present Chatterbox-Flash, a zero-shot text-to-speech model obtained by fine-tuning a pretrained a…

tts 语音合成零样本流式论文

11

🤖 AI 工具 Dev.to 2026-05-31

Inworld TTS Paralinguistic Tags Don't Work — Here's What Does

副语言标签不出声？试试这个TTS，情感表达精准到位，告别静音读字

If you've worked with expressive TTS in the last year you've probably seen the pattern: She paused. [sigh] "Fine, you can come in." Inline paralinguis…

语音合成副语言标签情感表达高质量tts

12

🤖 AI 工具 arXiv AI 2026-05-26

AI-generated podcasts: Synthetic Intimacy and Cultural Mistranslation in NotebookLM's Audio Overviews

上传文档即可生成两位AI主持人的自然对话播客，让学习与信息消化变得像听聊天一样轻松。

arXiv:2511.08654v2 Announce Type: replace-cross Abstract: This paper analyses AI-generated podcasts produced by Google's NotebookLM, which generates a…

ai播客文档分析语音合成知识提取对话式学习

13

🤖 AI·大模型 IT 之家 2026-05-22

网易有道“子曰 4”多模态模型、语音合成模型全量开源

网易有道重磅开源“子曰4”多模态模型与TTS模型，教育场景数理能力达行业顶尖，支持14种语言，单卡即可运行。

IT之家 5 月 22 日消息，网易有道今日宣布，决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成（TTS）模型”，正式面向全球全量开源。开发者可以免费下载、部署，并基于此进行二次开发。此次开源的“子曰 4”多模态模型（27B 参数规模）面向教育场景，支持视觉输入的数…

网易有道子曰多模态模型语音合成模型全量开源

14

⚡ 效率工具 Hacker News AI 2026-05-22

Show HN: AI Audiobook Narrator

一键将电子书转为多语言有声书，支持47种语言和本地口音，AI语音自然逼真。

Article URL: https://warblize.com/ Comments URL: https://news.ycombinator.com/item?id=48227955 Points: 2 # Comments: 0

ai有声书多语言语音合成电子书转换自动翻译

15

🤖 AI 工具 IT 之家 2026-05-21

腾讯会议“AI 同传”功能上线：可模仿用户音色、时延低于 3 秒

腾讯会议AI同传上线，能模仿你的音色且时延低于3秒，让每个人独立收听自己的语言，发言翻译几乎同步。

IT之家 5 月 21 日消息，腾讯会议今日宣布「AI 同传」正式上线，可模仿用户音色、时延低于 3 秒，发言和翻译几乎同步。据介绍，该功能不用插件、不用外接设备，会议里的每一位参会者，都能独立开启属于自己的「AI 同传」，你听你想听的语言，他听他想听的语言，每个人的发言都被清晰对应、精准传递…

腾讯会议同传功能上线可模仿用户音时延低于

16

📝 深度技术 arXiv 机器学习 2026-05-20

Voice ''Cloning'' is Style Transfer

颠覆传统认知：语音克隆本质是风格迁移，斯坦福团队用新视角重新定义技术边界。

arXiv:2605.16578v1 Announce Type: cross Abstract: Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular…

语音克隆风格迁移语音合成 ai论文学术研究

17

📝 深度技术 arXiv 计算机视觉 2026-05-19

JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching

联合人脸运动与语音生成，Flow Matching实现音视频同步合成，突破传统分离建模局限。

arXiv:2506.23552v2 Announce Type: replace Abstract: The intrinsic link between facial motion and speech is often overlooked in generative modeling, wh…

jam-flow joint audi flow match 人脸运动生成语音合成

18

🤖 AI·大模型 Product Hunt 2026-05-19

Voiser AI

140+语言真人级AI配音，轻松生成专业语音内容

Human-like AI voiceovers in 140+ languages Discussion | Link

ai配音文本转语音多语言语音合成 producthun

🐂 牛哥精选