JoyVoice

💡

JoyVoice Highlight

Large speech generation models are evolving from single-speaker, short sentence synthesis to multi-speaker, long conversation generation. Introducing JoyVoice, a highly anthropomorphic, multi-speaker and long-context conversational speech synthesis foundation model. JoyVoice is capable of generating a conversation as long as 5 minitues in a single shot, featuring up to 8 speakers. Compared with similar speech foundation models, JoyVoice achieves significant improvements in prosodic continuity for long-form speech, rhythm richness in multi-speaker conversations, paralinguistic naturalness, besides superior intelligibility.

Key Innovations of JoyVoice

🎯 End-to-End Transformer-DiT Architecture JoyVoice leverages a fully optimized end-to-end structure, where hidden representations from the AR-Transformer are directly fed into the DiT module. This integrated design enables seamless coordination between components and ensures efficient, high-fidelity multi-speaker audio synthesis.

🎵 MM-Tokenizer with Enhanced Loss Design JoyVoice MM-Tokenizer introduces both multitask semantic loss and Mel-spectrogram reconstruction loss to better capture acoustic details. Operating at a low bitrate of 12.5 Hz, it effectively models both semantic and acoustic attributes of speech.

📝 Minimal Reliance on TTS Frontend JoyVoice significantly reduces dependency on text normalization modules through large-scale data coverage, text perturbation techniques, and simulated data generation—boosting system robustness and simplifying deployment.

🏆 State-of-the-Art Performance JoyVoice (0.5B Paraformers) achieves top-tier results on both the Seed-TTS-Eval Benchmark and multi-speaker long-form conversational voice cloning tasks, demonstrating superior audio quality and generalization.

Figure 1: Model Architecture

Figure 2: Intelligibility Benchmarks

Multi-Speaker
Zero-Shot
Voice Clone

Bring Every Conversation to Life

JoyVoice empowers you to craft dynamic conversations for 2～8 speakers with incredible realism. Enjoy flawless consistency, stable character voices, and expressive delivery that makes every line feel alive.

Crosstalk Performers: Guo Degang & Yu Qian

Crosstalk

郭

谢谢，谢谢大家。看见您各位高兴，我心里也痛快。

于

是。

郭

来到这儿，跟我的好朋友于谦老师，给您说一段相声。

于

对，我们俩合作多年。

郭

于老师，了不起的人呐。

于

您又捧我。

郭

不是捧。在咱们相声界，您是这个学问大，见识广。人家那生活，丰富多彩。

于

哎，也就是平常人的日子。

郭

谦儿哥三大爱好，全国观众没有不知道的。

于

哦？哪三大爱好？

郭

抽烟、喝酒、烫头。

于

嗨！这都多少年前的事了，您还提呢。

郭

这是您的标志啊。现在怎么样？身体还好吗？

于

托您的福，还不错。

郭

那就好。我最近可是不太好。

于

您怎么了？

郭

让我媳妇给轰出来了。

于

因为什么呀？

郭

说我在家不务正业，整天研究些没用的。

于

您研究什么了？

郭

我研究怎么能让咱们这个相声，更上一层楼。

于

这是好事啊。

Prompt Audio

Guo Degang

Yu Qian

Proposed Systems

JoyVoice-25Hz

JoyVoice-12.5Hz

Other Models

VibeVoice-7B

Kimi-MoonCast

Tech Podcast (Chinese)

Podcast

哈喽大家好,欢迎收听我们这一期的播客啊,然后今天咱们会聊一聊最近在人工智能领域的的一些比较大的进展啊,无论是认知模型还是多模态,还是具身智能啊,都有一些非常有意思的突破。

没错没错,对,这些方向都有挺震撼的一些成果出来,那我们就赶紧开始吧。

啊行,今天咱们就先从认知模型开始聊起啊,那第一个咱们就先聊一聊这个MIT最近发布的这个CEO框架。这个东西到底是干嘛的,有什么特点,然后会带来哪些影响。

好的,这个CEO框架呢,它的厉害的地方就在于, 它解决的问题就是让这个大语言模型可以在面对新的数据的时候自己去调整,它是通过生成自我编辑,利用强化学习来优化这个编辑的策略。

听起来非常的酷啊,那对于开发者来讲有什么具体的影响呢?

就是开发者可以在很多具体的场景下使用这个模型,然后在测试的时候就可以继续训练,就很灵活。

然后还有一个就是这个Sergey Levine, 他最近有一篇论文啊,叫 Language Models in Plato's Cave。

嗯!

它其实就是在讲这个语言模型在推理上面的一些表现,以及它和这个视频模型的一些对比。

最近有几个演示真的让我惊掉下巴。比如那个能实时解读视频内容，还能和你自然对话的模型，感觉科幻片里的场景一下就拉到现实了。

对对！不只是简单描述画面，还能推理场景里的人物关系，甚至预测接下来可能发生什么。这已经有点接近我们人类的'常识'了。

确实如此！不过这些进展也带来了不少新的挑战和思考就是了。比如说伦理问题，还有这些技术到底会如何影响我们的生活。

哎，这个话题可就大了，咱们留到下一期再深入聊聊？今天时间也差不多了。

好啊好啊，那今天我们就在这儿告一段落。各位听众朋友，我们下期再见！

Reference Audio

Female

Male

Generated Audio

VibeVoice-7B

JoyVoice-25Hz

JoyVoice-12.5Hz

-->

Podcast by Luo Yonghao & He Tongxue

Podcast

Luo

哟哟，在这凡尔赛。你这个年纪如果去传统的企业里去，就很难有这么快取得这么好的成果。

啊不是凡尔赛，不是凡尔赛。确实，我肯定没法来，来这录咱们这个播客，这个确实很幸运。

Luo

不，那那是另外一回事。但是我确实觉得其实最大的两个机会嘛，一个就是一个就是AI，一个就是自媒体。当然也我这个是我，我这个是感觉啊，我不知道是不是这样。

对当然。但我觉得如果你想真正的成为一个就是真正的大，真正的企业，那确实是软件、互联网、AI，这个方向会更，肯定是天花板是更高的。

Luo

那你有这想法吗？

完全没有。我甚至我只会做视频，我做不好别的工作。

Luo

也不能这么说，这个话题我们后边会专门聊到，然后大学，对，你到大二的时候成绩开始下来，然后集中精力就在视频上了。

是的是的。

Luo

然后那个时候有什么同学同好一起凑在一块商量的做吗？还是你一个人？

完全没有，那个时候就是我一个人做。

Luo

同学都没有感兴趣做这个？

我有一个，我有一个室友经常会跟我一起拍视频，就是比如说我要去拍一个镜头，然后他如果没啥事他就说，哎，阿泛咱俩一起去拍这个镜头，他就帮我拍一下。

Luo

其实是帮你忙。

确实我同学对我很好，大家帮我拍这个。

Luo

然后你自己做了，你第一次红的是大几的时候？是5G那个吗？

对，如果是全社会范围内大家都确实很多人看过的视频就是5G那个视频，那个是我大二的时候。

Luo

啊大二就做出来了。所以其实有了一个超强的正向激励。

对，但是，其实我感觉这个激，激励，客观的说啊，确实是给了我非常大的作为一20岁的年轻人非常大的这个流量和名声。但我当时做完这个视频的时候其实是非常的怎么说焦虑或者是，因为你现在好突然，我原来做视频是这样，突然就干成了这样，那你下一个视频该怎么办呢？你不可能再往高走了呀。

Luo

明白，你当时，你是在那个视频红了以后自己说的安迪沃霍尔那话吗？就是15分钟名人那个。

啊是的是的。

Luo

你是觉得下一支可能就没了？